DE102012112322B4

DE102012112322B4 - Verfahren zum optischen Abtasten und Vermessen einer Umgebung

Info

Publication number: DE102012112322B4
Application number: DE102012112322.5A
Authority: DE
Inventors: Rasmus Debitsch; Gerrit Hillbrand; Rolf Heidemann; Martin Ossig
Original assignee: Faro Technologies Inc
Current assignee: Faro Technologies Inc
Priority date: 2012-12-14
Filing date: 2012-12-14
Publication date: 2015-11-05
Anticipated expiration: 2032-12-15
Also published as: WO2014091307A2; WO2014091307A3; US9217637B2; DE102012112322A1; US20140168370A1

Abstract

Verfahren zum optischen Abtasten und Vermessen einer Umgebung mittels eines Handscanners (100) zur Erstellung von 3D-Scans, wobei der Handscanner (100) mittels wenigstens eines Projektors (121, 122) wenigstens ein Muster (X, X') auf einem Objekt (O) in der Umgebung erzeugt und mittels wenigstens einer Kamera (111, 112, 113) das mit dem Muster (X, X') versehene Objekt (O) mit einer Vielzahl von Aufnahmen (Frames F) in Sequenzen aufnimmt und dabei das Objekt (O) umrundet, dadurch gekennzeichnet, dass zur Auffindung eines beim Umrunden des Objekts (O) auftretenden Ringschluss in der Vielzahl von Aufnahmen (Frames F) in einem ersten Schritt zu jeder Aufnahme (Frame F) in der Vielzahl von Aufnahmen (Frames F) ein Frustum (V) gebildet wird als endlicher Teil eines sich von der Bildebene (B111, B112) der Kamera (111, 112, 113) aus ins Unendliche erstreckender, pyramidenstumpfförmigen Raumbereichs des zugeordneten 3D-Scans, welcher aus der Aufnahme (Frame F) ermittelt wird, wobei dem zuletzt aufgenommenen, aktuellen Frame (Fn) das aktuelle Frustum (Vn) und jeder vergangenen Aufnahme (Frame F) in der Vielzahl von Aufnahmen (Frames F) ein weiteres Frustum (Vj) zugeordnet ist, in einem zweiten Schritt das aktuelle Frustum (Vn) mit mehreren der weiteren Frusta (Vj) – mittels Bildung der Schnittmenge zwischen dem aktuellen Frustum (Vn) und jedem Frustum (Vj) der mehreren weiteren Frusta (Vj) – verglichen wird, wobei dasjenige Frustum (Vj), mit welchem die größte Schnittmenge besteht, ausgewählt wird, in einem dritten Schritt innerhalb des aktuelle Frustums (Vn) und des ausgewählten Frustums (Vj) jeweils Merkmale gesucht werden, in einem vierten Schritt die gefundenen Merkmale miteinander verglichen und die übereinstimmenden Merkmale identifiziert werden, und in einem fünften Schritt in Abhängigkeit vom Grad der Übereinstimmung der übereinstimmenden Merkmale die Entscheidung erfolgt, ob ein Ringschluss vorliegt oder nicht.

Description

Die Erfindung betrifft ein Verfahren mit den Merkmalen des Oberbegriffs des Anspruches 1.
Ein Verfahren dieser Art ist aus der US 6 826 299 B2 bekannt. Ein Projektor projiziert Lichtmuster auf die Oberfläche eines zu scannenden Objekts. Die Position des Projektors wird anhand eines projizierten kodierten Musters bestimmt. Zwei (oder mehr) Kameras, deren Relativpositionen und -ausrichtungen bekannt sind oder ermittelt werden, können die Oberfläche mit einem weiteren, unkodierten Muster aufnehmen. Mittels an sich bekannter mathematischer Methoden, wie der Epipolargeometrie, können die dreidimensionalen Koordinaten (der Punkte des Musters) ermittelt werden.
Aus dem Spielebereich sind Scanner als Zielverfolgungseinrichtungen bekannt, bei welchen ein Projektor ein kodiertes Lichtmuster auf das zu verfolgende Ziel projiziert, vorzugsweise den spielenden Benutzer, um dieses kodierte Lichtmuster dann mit einer Kamera aufzunehmen und die Koordinaten des Benutzers zu ermitteln.
Die US 8 238 611 B2 offenbart ein System zum Scannen einer Szene einschließlich Entfernungsmessung. Das System besteht in seiner einfachsten Form aus einer Kameraeinheit mit zwei Kameras, gegebenenfalls mit Filtern, zur stereoskopischen Erfassung eines Zielbereichs, aus einer Beleuchtungseinheit zur Erzeugung eines Musters im Zielbereich, vorzugsweise mittels eines diffraktiven optischen Elements, und aus einer Synchronisiereinheit, welche Beleuchtungseinheit und Kameraeinheit aufeinander abstimmt. Kameraeinheit und Beleuchtungseinheit können in wählbaren Relativpositionen aufgestellt werden. Wahlweise können auch zwei Kameraeinheiten oder zwei Beleuchtungseinheiten eingesetzt werden.
Die AT 501 507 A1 beschreibt einen Handscanner, welcher mittels zweier Projektoren ein Muster auf der Oberfläche eines Objektes erzeugt und mittels einer Kamera das Muster aufnimmt, um hieraus die Kontur des Objektes zur ermitteln. Dabei wird das Objekt von mehreren Stellen in Raum aus anvisiert, um mehrere Aufnahmen von Konturteilen zu erzeugen. Unter Nutzung von markanten Merkmalen in Überlappungsbereichen benachbarter Aufnahmen werden die Konturteile zusammengefügt.
In der US 6 542 249 B1 ist eine Vorrichtung mit einem Drei-Linien-Projektor und einer Kamera beschrieben, welche definiert bewegt und von verschiedenen Positionen aus ein Objekt mit einem Muster versieht und aufnimmt. Die jeweils ermittelten Konturteile werden zusammengefügt.
Eine Vorrichtung mit einer in der Hand gehaltenen Messwerterfassungseinheit, welche eine Kamera und verschiedenen Sensoren aufweist, und einer vom Benutzer am Kopfgetragenen Sichteinheit zu Kontrollzwecken zeigt die EP 1 211 481 A2 .
Die AT 506 110 A1 offenbart eine von Hand tragbare Vorrichtung mit einem Linien-Projektor und einer Kamera.
Schließlich beschreibt die US 2002/0015934 A1 , wie bei der Registrierung zweier aufeinander folgender Frames eine Mittelung der Koordinaten der Messwerte in jedem der beiden Frames erfolgt, um die Differenz der gemittelten Koordinaten beim Startpunkt der Registrierung zu berücksichtigen.
Der Erfindung liegt die Aufgabe zu Grunde, ein Verfahren der eingangs genannten Art zu verbessern. Diese Aufgabe wird erfindungsgemäß durch ein Verfahren mit den Merkmalen des Anspruches 1 gelöst. Vorteilhafte Ausgestaltungen sind Gegenstand der Unteransprüche.
Gegenüber einem kodierten Muster lässt sich ein unkodiertes Muster einfacher erzeugen, beispielsweise als regelmäßige Muster aus Lichtpunkten. Um dann das mit dem Muster versehene Objekt aufzunehmen und eindeutige Korrespondenzen der Lichtpunkte des Musters zu erhalten, werden zwei (oder mehr) Kameras verwendet. Die zwei Kameras und der Projektor sind nicht kolinear, sondern in einer Dreiecksanordnung zueinander angeordnet. Dies ermöglicht die Verwendung von drei Epipolargeometrie-Beziehungen, um die Korrespondenzen zwischen dem Muster in den Kamerabildern zu ermitteln. Sind diese Korrespondenzen dann bekannt, können die dreidimensionalen Koordinaten der Punktwolke, also der 3D-Scan, ermittelt werden.
Vorzugsweise wird das Muster nicht im sichtbaren Wellenlängenbereich, sondern im Infraroten erzeugt. Entsprechend sind die beiden Kameras in diesem Wellenlängenbereich empfindlich, während Streulicht und andere Störungen im sichtbaren Wellenlängenbereich herausgefiltert werden können. Für Farbinformationen kann als dritte Kamera eine Farbkamera vorgesehen sein, welche ebenfalls das zu scannende Objekt aufnimmt. Mit den so erlangten Farbinformationen kann dann der 3D-Scan eingefärbt werden.
Der Handscanner erzeugt mehrere 3D-Scans der gleichen Szene von verschiedenen Positionen aus. Die Registrierung der verschiedenen 3D-Scans in einem gemeinsamen Koordinatensystem wird durch ein stationäres Muster erleichtert, welche von verschiedenen 3D-Scans erfasst werden kann. Das stationäre Muster ruht bezüglich des Objekts, wenn der Handscanner bewegt wird und die verschiedenen Positionen einnimmt. Als stationäres Muster kann die natürliche Textur der Oberfläche des Objekts und sonstige Strukturen, beispielsweise Kanten, verwendet werden, die mittels einer Farbkamera als dritter Kamera erfasst wird, oder es wird (zusätzlich oder alternativ) ein projiziertes Muster verwendet, das ein separater (externer) Projektor erzeugt. Dieses stationäre Muster kann geometrisch, zeitlich oder spektral unterscheidbar von dem Handscanner erzeugten Muster sein.
Es ist ein Baukasten mit drei (oder mehr) Kameras und mehreren Projektoren denkbar, mittels dessen anwendungsabhängige Anforderungen erfüllt werden, indem Muster mit unterschiedlicher Punktdichte und lateraler Auflösung projiziert und aufgenommen werden.
Die Erzeugung des Musters kann durch ablenkende Verfahren, beispielsweise die Erzeugung mittels diffraktiver optischer Elemente oder Mikrolinsen (oder Einzel-Laser), oder durch abschattende Verfahren, beispielsweise die Erzeugung mittels Blenden, Dias (wie sie bei einem Dia-Projektor verwendet werden würden) und anderen Masken, erfolgen. Die ablenkenden Verfahren haben dabei den Vorteil, dass weniger Licht verloren geht und daher mehr Intensität zur Verfügung steht.
Der Handscanner ist vorliegend als tragbarer Scanner konzipiert, arbeitet also mit hoher Geschwindigkeit und weist ein geringes Gewicht auf. Es ist aber auch möglich, dass der Handscanner auf einem Dreibein (oder einem anderen Stativ), auf einem manuell verfahrbaren Trolley (oder einem anderen Wagen) oder auf einem autonom fahrenden Roboter montiert ist, also nicht mehr vom Benutzer getragen wird, gegebenenfalls auch unter Verwendung eines anderen Gehäuses, beispielsweise ohne Griffteil. Der Begriff ”Handscanner” ist daher weit auszulegen, so dass er allgemein als kompakte Einheiten ausgebildete Scanner umfasst.
Der Betrieb des Handscanners kann in einer Abfolge der Frames oder einem Video einen Ringschluss mit sich bringen, insbesondere beim Umrunden eines Objekts O. Vorzugsweise wird der Ringschluss automatisch erkannt und zur Korrektur etwaige Fehler der Messungen genutzt. Hierfür wird vorzugsweise zu jedem Frame der Vielzahl von Frames jeweils ein Frustum gebildet, welches einen bestimmten Teil der Punkte der dreidimensionalen Punktwolke enthält, welche den 3D-Scan repräsentiert, der aus dem Frame ermittelt wird und diesem zugeordnet ist. Vom Frustum des aktuellen Frames und mehreren der vergangenen Frames wird jeweils die Schnittmenge gebildet, wobei dasjenige vergangene Frustum, mit welchem die größte Schnittmenge besteht, ausgewählt wird. Mittels Suchen, Vergleichen und Identifizieren von Merkmalen kann der Ringschluss erkannt werden.
Um die vom Handscanner zu speichernde und/oder zu übertragende Datenmenge zu reduzieren, erfolgt vorzugsweise (in einem post-processing) eine Mittelung über benachbarte Frames, vorzugsweise durch Einteilung der zweidimensional strukturierten Datenmenge in Gruppen von Frames und Mittelung über die Frames der Gruppe.
Im Folgenden ist die Erfindung anhand eines in der Zeichnung dargestellten Ausführungsbeispiels näher erläutert. Es zeigen
1 eine schematische Darstellung der Vorrichtung,
2 eine schematische Darstellung der Erzeugung eines Musters mittels eines diffraktiven optischen Elements.,
3 ein Muster und ein anderes Muster,
4 eine schematische Darstellung von Projektorebene, Bildebenen und Epipolarlinien,
5 eine schematische Darstellung einer Mittelung, und
6 eine schematische Darstellung eines Ringschlusses.
Ein Handscanner 100 ist als tragbarer Teil einer Vorrichtung zum optischen Abtasten und Vermessen einer Umgebung des Handscanners 100 vorgesehen. Der Handscanner 100 weist ein Fußteil 104, ein Griffteil 106, welches vom Fußteil 104 – bei bestimmungsgemäßem Gebrauch nach oben weisend – absteht, und ein Kopfteil 108, welches auf dem Griffteil 106 – bei bestimmungsgemäßem Gebrauch an dessen oberem Ende – angeordnet ist. Ein Benutzer des Handscanners 100 kann den Handscanner 100 am Griffteil 106 nehmen, welches dafür entsprechend ausgebildet ist, mit dem Handscanner 100 die Umgebung zu durchschreiten und den Handscanner 100 auf Objekte O in der Umgebung ausrichten
Im Kopfteil 108 sind – in einem definierten Abstand voneinander beabstandet – eine erste Kamera 111 und eine zweite Kamera 112 angeordnet. Die Ausrichtungen der ersten Kamera 111 und der zweiten Kamera 112 zueinander sind so eingestellt oder einstellbar, dass die Gesichtsfelder überlappen und stereoskopische Aufnahmen der Objekte O möglich sind. Wenn die Ausrichtungen fest eingestellt sind, gibt es je nach Anwendung einen optimalen Überlapp-Bereich. Hinsichtlich Genauigkeit wäre ein Überlapp-Bereich ähnlich der Projektor – Kamera Abstände günstig. Abhängig von typischen Umgebungssituationen kann auch ein Bereich von mehreren Dezimetern oder Metern bevorzugt werden. Alternativ sind die Ausrichtungen vom Benutzer einstellbar, beispielsweise durch gegensinniges Schwenken der Kameras 111 und 112. um zum Griffteil 106 parallele Drehachsen. Die Ausrichtung kann dem Handscanner 100 jederzeit bekannt sein, wenn der Einstellvorgang des Benutzers verfolgt wird, oder die Ausrichtung ist zunächst beliebig (und unbekannt), und wird dann durch Kalibrieren dem Handscanner 100 bekannt gemacht.
Vorzugsweise sind die erste Kamera 111 und die zweite Kamera 112 monochrom, d. h. für einen engen Wellenlängenbereich empfindlich, beispielsweise indem sie entsprechende Filter aufweisen, die dann andere Wellenlängenbereiche einschließlich Streulicht ausfiltern. Dieser enge Wellenlängenbereich liegt vorzugsweise im Infrarot-Bereich. Um trotzdem Farbinformationen über die Objekte O zu erhalten, ist im Kopfteil 108 vorzugsweise eine Farbkamera 113 angeordnet, vorzugsweise symmetrisch zur ersten Kamera 111 und zweiten Kamera 112 ausgerichtet und in der Mitte zwischen den beiden angeordnet. Die Farbkamera 113 ist dann im sichtbaren Wellenlängenbereich empfindlich.
Der Handscanner 100 weist eine Anzeige- und Bedieneinrichtung 115 auf, welche vorzugsweise als Touchscreen ausgebildet ist. Die Anzeige- und Bedieneinrichtung 115 ist vorzugsweise am Kopfteil 108 angeordnet auf der von den Kameras 111, 112 und gegebenenfalls 113 abgewandten Seite. Die Anzeige- und Bedieneinrichtung 115 kann abnehmbar ausgebildet sein. Die Kameras 111, 112 und gegebenenfalls 113 sowie die Anzeige- und Bedieneinrichtung 115 sind an eine Steuer- und Auswerteeinrichtung 118 angeschlossen, welche vorzugsweise im Kopfteil 108 angeordnet ist. Vorzugsweise kann die Steuer- und Auswerteeinrichtung 118 die Daten der Kameras 111, 112 und gegebenenfalls 113 vorverarbeiten, gegebenenfalls bereits die 3D-Scans erstellen, und geeignete Darstellungen auf die Anzeige- und Bedieneinrichtung 115 geben. Alternativ ist gar keine Anzeige- und Bedieneinrichtung 115 vorhanden, sondern der Handscanner 100 wird mittels einer Fernsteuerung bedient, beispielsweise von einem stationären oder tragbaren Rechner (PC, Tablet, Smartphone o. ä.) aus, welcher in ständiger Verbindung (mit Kabel oder kabellos) mit der Steuer- und Auswerteeinrichtung 118 steht.
Sofern die Steuer- und Auswerteeinrichtung 118 die 3D-Scans oder die Daten der Kameras 111, 112 und gegebenenfalls 113 nicht mit einer Funkverbindung überträgt (beispielsweise mittels WLAN zu einem stationären Rechner), weist der Handscanner 100 einen Datenanschluss auf, vorzugsweise am Fußteil 104 (oder alternativ an einer anderen Stelle des Handscanners 100). Bei diesem Datenanschluss kann es sich beispielsweise um eine normierte Schnittstelle für LAN, USB o. ä. handeln oder um eine spezielle Schnittstelle, wie sie in der DE 10 2009 010 465 B3 beschrieben ist. Gegebenenfalls kann der Datenanschluss auch zum Einführen eines tragbaren Speichermediums (SD-Karte, USB-Stick etc.) ausgebildet sein. Im Fußteil 104 ist vorzugsweise ein Akkumulator zur Stromversorgung untergebracht. Zum Laden desselben kann ein Stromanschluss vorgesehen sein, vorzugsweise ebenfalls am Fußteil 104. Alternativ ist der Akkumulator auswechselbar.
Grundsätzlich könnten aus den Aufnahmen der ersten Kamera 111 und der zweiten Kamera 112 bereits (in der Steuer- und Auswerteeinrichtung 118) dreidimensionale Daten ermittelt werden, also 3D-Scans der Objekte O erstellt werden, beispielsweise mittels Photogrammetrie. Jedoch weisen die Objekte O häufig wenig Strukturen und viele glatte Flächen auf, so dass die Erstellung von 3D-Scans aus dem Streulicht der Objekte O schwierig ist.
Es ist daher ein (erster) Projektor 121 vorgesehen, welcher vorzugsweise im Fußteil 104 (oder alternativ im Kopfteil 108) angeordnet und entsprechend der beiden Kameras 111 und 112 ausgerichtet ist. Der relative Abstand und die relative Ausrichtung sind fest eingestellt oder vom Benutzer einstellbar. Der (erste) Projektor 121 projiziert auf die zu scannenden Objekte O ein Muster X. Das Muster X braucht nicht kodiert (also eindeutig) zu sein, sondern ist vorzugsweise unkodiert, beispielsweise periodisch, also mehrdeutig. Die Mehrdeutigkeit wird durch die Verwendung der beiden Kameras 111 und 112 aufgelöst.
Vorzugsweise ist das unkodierte Muster X ein Punktmuster, bestehend aus einer regelmäßigen Anordnung von Punkten in einem Gitter. Vorliegend werden beispielsweise einhundert mal einhundert Punkte in einem Winkel von etwa 50° in eine Entfernung von etwa 0,5 m bis 5 m projiziert. Das Muster X kann auch ein Linienmuster oder ein Kombinationsmuster von Punkten und Linien sein, das jeweils aus entsprechend dicht angeordneten Lichtpunkten gebildet wird. Die beiden Kameras 111 und 112 bilden das Muster X in ihre jeweilige Bildebene B₁₁₁ und B₁₁₂ ab, in welcher jeweils ein Photosensor (beispielsweise CMOS oder CCD) angeordnet ist, um das Muster X aufzunehmen.
Es besteht ein Zusammenhang zwischen der Punktdichte, der Distanz zwischen (erstem) Projektor 121 und Objekt und der Auflösung, welche mit dem erzeugten Muster X erreicht werden kann. Wenn nur einzelne Aufnahmen zu Verfügung stehen, können mit einer höheren Punktdichte feine Strukturen des Objekts O untersucht werden, mit niederen Punktdichten nur grobe Strukturen. Es erscheint daher hilfreich, außer dem Muster X wenigstens noch ein anderes Muster X' erzeugen zu können. Je nach Erzeugung der Muster X, X' ist ein dynamischer Übergang zwischen den Mustern und/oder eine räumliche Durchmischung möglich, um die Punktdichte an die Strukturen des Objektes O anzupassen.
In einer Ausführungsform für Spezialuntersuchungen ist daher neben dem (ersten) Projektor 121 ein zweiter Projektor 122 angeordnet, welche entsprechend ausgerichtet ist und das andere Muster X' erzeugen kann. Alternativ kann der (erste) Projektor 121 außer dem Muster X auch das andere Muster X' erzeugen, beispielsweise zeitlich versetzt zueinander und/oder in einem anderen Wellenlängenbereich. Das andere Muster X' ist vorzugsweise ein von dem Muster X abweichendes, vorliegend unkodiertes Muster, vorliegend ein Punktmuster mit einer regelmäßigen Anordnung von Punkten mit einem anderen Abstand (Gitterlänge) zueinander.
Es ist auch denkbar, dass dem Muster X das andere Muster X' ständig überlagert ist, beispielsweise mit unterschiedlicher Intensität. Das so gebildete Muster X hat dann beispielsweise Lichtpunkte mit höherer Intensität in größeren Abständen und dazwischen Lichtpunkte mit geringerer Intensität mit geringeren Abständen. Mit dem unterschiedlich intensiven Muster X kann die begrenzte Kameradynamik (bei gegebener Belichtungszeit sind die Lichtpunkte nur in einem begrenzten kombinierten Entfernungs- und Reflektivitätsbereich ohne Über-/Unterbelichtung sichtbar) überwunden und ein größerer Tiefen- und Intensitäts-Dynamikbereich abgedeckt werden. Das besagte Muster X weist zwar eine höhere Periodizität auf, ist aber weiterhin unkodiert im Sinne der vorliegenden Erfindung.
Ferner ist ferner denkbar, dass mehr als zwei Muster X, X' verwendet werden, beispielsweise eine definierte Sequenz von mehreren Mustern, die beispielsweise zeitlich hintereinander erzeugt werden.
Das – vorzugsweise monochromatische – Muster X (und X') wird vorzugsweise mittels eines diffraktiven optischen Elements 124 erzeugt, welches einen von einem Laser erzeugten Lichtstrahl im Wellenlängenbereich (Infrarot) der beiden Kameras 111 und 112 entsprechend zum Muster X teilt, ohne Intensität zu verlieren. Die laterale Auflösung ist dann nur durch den Strahldurchmesser beschränkt, d. h. die Größe der Punkte. Da das Muster X (und X') im Infrarot-Bereich erzeugt wird, können sowohl die Aufnahmen der Farbkamera 113 ungestört erstellt also auch Sicherheitsmaßnahmen zum Schutz der Augen oder dergleichen vermieden werden. Zum gleichen Zweck könnte das Muster X (und X') alternativ im Ultraviolett-Bereich erzeugt werden.
Zwei Mustern X und X' können mit zwei diffraktiven optischen Elementen erzeugt werden, welche zeitlich unterschiedlich oder mit verschiedenen Wellenlängen durchleuchtet werden. Mit einem zeitlich veränderlichen diffraktiven optischen Element kann schnell (d. h. bei näherungsweise jedem Frame) oder langsam (beispielsweise manuell gesteuert) zwischen den Mustern X und X' gewechselt werden, oder das Muster X kann dynamisch an die sich ändernden Gegebenheiten angepasst werden (hinsichtlich der Dichte der Lichtpunkte und der Reichweite des projizierten Musters X). Es ist auch ein allmählicher Übergang zwischen den Mustern X und X' denkbar (Überblendung). Alternativ zu diffraktiven optischen Elementen können Arrays von Mikrolinsen oder von Einzel-Lasern verwendet werden. Gegebenenfalls ist auch eine klassische Abbildung mittels einer Maske, insbesondere eines Dias, möglich.
Aus Gründen der Energieeffizienz und der Augensicherheit erzeugt der (erste) Projektor 121 nur dann das Muster X auf den Objekten O, wenn die Kameras 111 und 112 (und gegebenenfalls 113) die mit dem Muster X versehenen Objekte O aufnehmen. Hierzu sind die beiden Kameras 111, 112 und der Projektor 121 (und gegebenenfalls der zweite Projektor 122) synchronisiert, d. h. intern aufeinander abgestimmt, und zwar sowohl zeitlich als auch hinsichtlich des verwendeten Musters X (und gegebenenfalls X'). Jeder Aufnahmevorgang beginnt, indem der (erste) Projektor 121 das Muster X erzeugt, ähnlich einem Blitz in der Photographie, und die Kameras 111 und 112 (und gegebenenfalls 113) folgen mit ihren Aufnahmen, genauer gesagt den Paaren von Aufnahmen (Frames), also von jeder der beiden Kameras 111, 112 eine Aufnahme. Der Aufnahmevorgang kann einen einzelnen Frame (Schuss), oder eine Sequenz von mehreren Frames (Video) umfassen. Vorzugsweise ist am Griffteil 106 ein Auslöser 126 vorgesehen, mittels dessen ein derartiger Schuss oder ein derartiges Video ausgelöst werden kann. Jeder Frame ergibt dann nach der Verarbeitung der Daten einen 3D-Scan, also eine Punktwolke im dreidimensionalen Raum in relativen Koordinaten des Handscanners 100. Alternativ zum Auslöser 126 kann der Aufnahmevorgang mittels der oben genannten Fernsteuerung des Handscanners 100 ausgelöst werden.
Der (erste) Projektor 121 und der gegebenenfalls vorhandene zweite Projektor 122 sind nicht kolinear zu den beiden Kameras 121 und 122 angeordnet, sondern in einer Dreiecksanordnung. Diese Anordnung der beiden Kameras 111 und 112 sowie des (ersten) Projektors 121 (und gegebenenfalls des zweiten Projektors 122) ermöglicht die Anwendung an sich bekannter mathematischer Methoden der Optik, insbesondere die Epipolargeometrie, wonach ein Punkt in der Bildebene B₁₁₂ der zweiten Kamera 112 sich auf einer (bekannten) Linie, nämlich der Epipolarlinie e, in der Bildebene B₁₁₁ der ersten Kamera 111 wiederfindet und umgekehrt, beziehungsweise ein vom (ersten) Projektor 121 aus einer Projektorebene P₁₂₁ heraus erzeugter Punkt sich auf jeweils einer Epipolarlinie e in den Bildebenen B₁₁₁, B₁₁₂ der beiden Kameras 111 und 112 wiederfindet.
Vorliegend sind (wenigstens) drei Geräte (Projektor 121 und die beiden Kameras 111 und 112) beteiligt, d. h. es können ausgehend von jedem Geräte jeweils zwei Stereo-Geometrien (mit jeweils einer Fülle von Epipolarlinien e) mit den beiden anderen Geräten definiert werden. Daher ergeben sich für die vorliegende Anordnung eindeutige Dreier-Beziehungen von Punkten und Epipolarlinien e, aus denen sich die Korrespondenz der Abbildungen des Musters X (und gegebenenfalls X') in den beiden Bildebenen B₁₁₁, B₁₁₂ ermitteln lässt. Aufgrund der (gegenüber einem Paar von Kameras) zusätzlichen Stereo-Geometrie können nämlich deutlich mehr der ansonsten ununterscheidbaren Muster-Punkte auf einer Epipolarlinie e identifiziert werden. Dadurch kann gleichzeitig die Dichte an Merkmalen hoch und die Merkmalsgröße sehr gering gehalten werden. Bei alternativen Verfahren mit kodierten Mustern (mit Merkmalen die beispielsweise aus mehreren Punkten bestehen) ist die Merkmalsgröße nach unten begrenzt, was die laterale Auflösung begrenzt. Wenn die besagte Korrespondenz ermittelt ist, werden mittels Triangulation die dreidimensionalen Koordinaten der Punkte auf der Oberfläche des Objektes O für den 3D-Scan ermittelt.
Zusätzliche dreidimensionale Daten können mittels Photogrammetrie aus mehreren Frames mit verschiedenen Kamera-Positionen gewonnen werden, beispielsweise der Farbkamera 113 oder aus demjenigen Teil des Signals der Kameras 111 und 112, welcher aus dem Umgebungslicht, also der natürlichen Textur der Umgebung stammt. Es kann auch vorteilhaft sein, wenn der Handscanner 100 oder ein anderes Gerät das Objekt O und gegebenenfalls den Hintergrund beleuchten kann, beispielsweise mit weißem Licht oder Infrarotlicht, so dass nicht nur die mit dem Muster X leuchteten Stellen des Objektes O und gegebenenfalls des Hintergrundes sichtbar sind, sondern auch dazwischenliegende Bereiche. Diese Beleuchtung eignet sich insbesondere, wenn die Daten der Farbkamera 113 bereits für die Erstellung der 3D-Scans (und nicht nur für deren Einfärbung) einbezogen werden sollen, und für die Kalibrierung der Kameras 111 und 112, wenn Filter nur einen beschränkten Spektralbereich durchlassen.
Der Scanvorgang weist auch einen zeitlichen Aspekt auf. Während bei stationären Vorrichtungen eine ganze Sequenz von Mustern projiziert und Aufnahmen gemacht werden können, um einen einzigen 3D-Scan zu ermitteln, wird vorliegend mit jedem Schuss des Handscanners 100 ein 3D-Scan erzeugt. Sofern für Spezialuntersuchungen ein zweiter Projektor 122 oder ein weiteres diffraktives optisches Element 124 oder wenigstens außer dem Muster X ein anderes Muster X' vorgesehen ist, können bei einem Schuss auch durch geeignetes Umschalten auch Aufnahmen mit verschiedenen Mustern X und X' zeitlich hintereinander gemacht werden, so dass der 3D-Scan dann eine höhere Auflösung erhält.
Um die komplette Szene zu erfassen, sind die mit dem Schuss erzeugten 3D-Scans zu registrieren, d. h. die dreidimensionalen Punktewolken jedes Frames in ein gemeinsames Koordinatensystem einzufügen. Die Registrierung ist beispielsweise mittels Videogrammetrie möglich, also beispielsweise „structure from motion” (SFM) oder „simultaneous localisation and mapping” (SLAM). Für gemeinsame Bezugspunkte kann die natürliche Textur der Objekte O genutzt oder ein stationäres Muster Y erzeugt werden. Die natürliche Textur kann mit der Farbkamera 113 erfasst werden, welche dadurch eine zweite Funktion (außer der Beschaffung der Farbinformation) erhält Vorzugsweise ist aber als zusätzlicher Teil der Vorrichtung zum optischen Abtasten und Vermessen der Umgebung des Handscanners 100 wenigstens ein separater Projektor 130 vorgesehen.
Der separate Projektor 130 projiziert das stationäre Muster Y auf die zu scannenden Objekte, d. h. ein Muster ähnlich dem Muster X (und gegebenenfalls X'), aber unterscheidbar, und vorzugsweise auf die gleiche Weise erzeugt. Während das Muster X und gegebenenfalls X' sich mit dem Handscanner 100 bewegt, ruht das stationäre Muster Y – auch bei bewegtem Handscanner 100 und bei Schüssen aus unterschiedlichen Positionen – in einem gemeinsamen Koordinatensystem. Das stationäre Muster Y ist dann in mehrerer Aufnahmen (Frames) der Kameras 111 und 112 zu sehen, so dass die daraus ermittelten 3D-Scans anhand des stationären Musters Y in Relation zueinander gebracht werden können. Das stationäre Muster Y unterscheidet sich geometrisch oder zeitlich oder spektral (oder kombiniert) von dem Muster X und gegebenenfalls X'. Bei zeitlicher Unterscheidbarkeit wird das stationäre Muster Y wenigstens in Zeitintervallen erzeugt, in denen das Muster X und gegebenenfalls X' nicht erzeugt wird (abwechselnd oder überlappend). Bei spektraler Unterscheidbarkeit liegt das stationäre Muster Y in einem anderen Wellenlängenbereich wie das Muster X und gegebenenfalls X', so dass die Kameras 111 und 112 auch hierfür empfindlich sein müssen, d. h. entsprechende Filter aufweisen sollten. Der separate Projektor 130 kann mit dem Handscanner 100 synchronisiert sein, d. h. dem Handscanner 100 sind der Zeitpunkt und die Art des projizierten stationären Musters Y bekannt.
Je nach zu scannendem Objekt O kann es sinnvoll sein, dass der separate Projektor 130 nach mehreren 3D-Scans auf die andere Seite des Objekts O gebracht wird, um auf die dortige Oberfläche ein stationäres Muster Y zu projizieren. Dadurch können Abschattungen vermieden werden. Der separate Projektor 130 ist daher vorzugsweise tragbar oder verfahrbar und ist entsprechend beispielsweise auf einem Dreibein oder auf einem Trolley (oder einem anderen Wagen) montiert oder montierbar. Alternativ werden mehrere separate Projektoren 130 verwendet, um Abschattungen zu vermeiden. Eine entsprechendes Baukastensystem ist möglich.
Grundsätzlich ist auch eine Automation möglich, d. h. der Handscanner 100 ist auf einem manuell verfahrbaren Trolley (oder einem anderen Wagen) oder einem autonom fahrenden Roboter montiert oder montierbar. Der nicht länger vom Benutzer getragene Handscanner 100 tastet seine Umgebung in definierter Weise ab, vorzugsweise eher unter Erzeugung eines Videos als unter Erzeugung einer Abfolge von Schüssen. Kameras und Projektoren sind nicht kolinear angeordnet.
Der Handscanner 100 kann ein Video mit einer hohen Dichte von Frames erzeugen, beispielsweise siebzig Frames pro Sekunde. Da aber der Handscanner 100 sich zwischen zwei Frames kaum bewegt, enthält das Video sehr viel redundante Information: zwei zeitlich benachbarte Frames unterscheiden sich nur in sehr geringem Maße. Um die zu speichernde und/oder zu übertragende Datenmenge zu reduzieren, sind daher geeignete Mittelungen in einem Post-Processing sinnvoll (5). Zunächst werden in einem ersten Mittelungsschritt die Frames F in Gruppen [F]_i eingeteilt, mit mehreren Frames F pro Gruppe [F]_i um jeweils einen Key-Frame F_i herum.
Aus der 3D-Computergrafik sind sogenannte Voxel bekannt, die als einzelne Raumelemente in Summe den Raum vollständig füllen. Häufig werden solche Strukturen verwendet, um dreidimensionale Daten aus verschiedenen Perspektiven in einer Punktwolke zu vereinen. Ein Nachteil bei der Aufnahme von Oberflächendaten sind die vielen verbleibenden leeren Voxel, die datentechnisch irgendwie behandelt werden müssen.
Hierzu werden vorliegend dem Problem angepasste und optimierte Datenstrukturen verwendet. Innerhalb einer Gruppe [F]_i von stark überlappenden Frames F lassen sich einzelne Messpunkte noch sehr gut und effizient in einer gemeinsamen zweidimensionalen Datenstruktur (Gitterstruktur) zusammenfassen, also optimiert für Oberflächendaten und sehr ähnlich zu einem zweidimensionalen Bild. Der geringere Speicherbedarf erlaubt, dass zunächst alle angefallenen Messwerte als Vektor in der zweidimensionalen Datenstruktur gespeichert werden können, d. h. jeweils Graustufe/Farbe und Abstand zum Handscanner 100 für jeden der Pixel der Frames F der Gruppe [F]_i.
In einem zweiten Mittelungsschritt erfolgt eine Mittelung innerhalb jeder Gruppe [F]_i, um Fehlmessungen sehr einfach eliminieren zu können. Für diese Mittelung (hinsichtlich Graustufen/Farben und/oder Abstände) wird nur ein definierter Anteil des Vektors im Mittenbereich der sortierten Messwerte herangezogen. Der Mittenbereich kann mittels Schwellwerten abgegrenzt werden. Diese Mittelung entspricht einem Ersatz der Gruppe [F]_i durch einen Key-Frame F_i mit gemittelten Messwerten, wobei die Key-Frames F_i immer noch einen großen Überlapp aufweisen. Jeder so gewonnene Messpunkt wird dann als Punkt (entsprechend einem dreidimensionalen Vektor) der dreidimensionalen Gesamt-Punktwolke weitergeführt.
In einem optionalen dritten Schritt können die durch Mittelung gewonnenen Messpunkte mit Daten aus anderen Gruppen [F]_i zusammengeführt werden, beispielsweise durch eine kartesische Mittelung.
Der Betrieb des Handscanners 100 bringt es mit sich, insbesondere beim Umrunden eines Objekts O, dass ein Ringschluss auftreten kann, d. h. nach etlichen Frames F zeigt das Video (oder die Abfolge von Schüssen) den gleichen Blick in den Raum oder wenigstens einen sehr ähnlichen Blick. Der Ringschlüsse wäre sofort erkennbar, wenn man bei der Erzeugung der Gesamt-Punktwolke jederzeit alle vorliegenden Daten betrachten könnte. Die Datenmenge und die daraus resultierende Rechenzeit lassen das jedoch nicht zu. Es ist ein Verfahren gefragt, mit dem sehr schnell festgestellt werden kann, welche Daten aus früheren Sequenzen durch den Ringschluss mitbetrachtet werden müssen. Wenn alle Messungen völlig fehlerfrei wären (und die Bewegung des Handscanners 100 ausreichend gleichmäßig wäre), würde sich der Ringschluss sofort aus der Registrierung der 3D-Scans im gemeinsamen Koordinatensystem ergeben. In der Realität wird sich aber ein Fehler aufsummieren, welcher zu einem Versatz zweier ähnlicher Frames F und der daraus resultierenden 3D-Scans führt. Eine Möglichkeit, den Ringschluss trotzdem automatisch zu erkennen (und den Fehler zu korrigieren), wird im Folgenden beschrieben (6).
Ein Frustum (genauer: Viewing Frustum) ist normalerweise ein pyramidenstumpfförmiger Raumbereich, der sich von der Bildebene aus entsprechend der Blickrichtung ins Unendliche erstreckt. Vorliegend wird in einem ersten Schritt zu jedem Frame F ein Frustum V gebildet, welches (wenigstens näherungsweise) 80% der erfassten Punkte aus der dreidimensionalen Punktwolke enthält, also ein endlicher Teil des besagten Raumbereichs des zugeordneten 3D-Scans, welcher aus dem Frame F ermittelt wird. Dem zuletzt aufgenommenen, aktuellen Frame F_n ist das aktuelle Frustum V_n zugeordnet. Dann wird in einem zweiten Schritt das aktuelle Frustum V_n mit den vergangenen Frusta V mittels Bildung der Schnittmenge verglichen. Dasjenige vergangene Frustum Vj, mit welchem die größte Schnittmenge besteht, wird ausgewählt, um eine genauere Analyse durchzuführen.
In einem dritten Schritt werden innerhalb des aktuellen Frustums V_n und des ausgewählten Frustums Vj jeweils auf an sich bekannte Weise Merkmale gesucht, beispielsweise Kanten und Ecken. In einem vierten Schritt werden die gefundenen Merkmale miteinander verglichen, beispielsweise hinsichtlich ihrer einbettenden Geometrie, und die übereinstimmenden Merkmale werden identifiziert. Abhängig vom Grad der Übereinstimmung erfolgt in einem fünften Schritt die Entscheidung, ob ein Ringschluss vorliegt oder nicht.
Um die Kenntnis des Ringschlusses zu nutzen, werden aus den identifizierten, übereinstimmenden Merkmalen gemeinsame Merkmale generiert. Mit dem unter der Bezeichnung ”bundle adjustment” bekannten Verfahren kann in einem sechsten Schritt der besagte Fehler der Messungen korrigiert werden, d. h. die 3D-Scans werden bis zu einer definierten Eindringtiefe in den Raum korrigiert, d. h. die dreidimensionale Punktwolke wird – stellenweise und in gewissem Maße – verschoben, so dass der besagte Versatz bei den an sich gleichen Frames, 3D-Scans und Frustums beseitigt ist. Sofern die Korrektur nicht vollständig möglich ist, also nach dem sechsten Schritt (mit dem ”bundle adjustment”) noch eine gewisse Abweichung der Daten und damit ein gewisser nicht-korrigierbarer Fehler der Messungen übrig bleibt, so ist vorzugsweise diese gewisse Abweichung (d. h. der nicht-korrigierbare Fehler) ein Maß für die Qualität der Messungen und der Daten insgesamt sein.
Die Bewegung des Handscanners 100 und die Verarbeitung der erzeugten Frames kann auch als Tracking behandelt werden, d. h. der Handscanner 100 verfolgt die Relativbewegung seiner Umgebung mit den beim Tracking verwendeten Verfahren. Wenn das Tracking verloren geht, beispielsweise wenn der Handscanner 100 zu schnell bewegt wurde, gibt es eine einfache Möglichkeit, das Tracking wieder aufzunehmen. Hierzu wird dem Benutzer auf der Anzeige- und Bedieneinrichtung 115 das aktuelle Videobild, wie es die Farbkamera 113 liefert, und das von ihr gelieferte, letzte Video-Standbild des Trackings nebeneinander (oder übereinander) dargestellt. Der Benutzer muss dann den Handscanner 100 so lange bewegen, bis beide Videobilder in Übereinstimmung gelangen. Eine Unterstützung, beispielsweise akustisch oder optisch, aufgrund einer Verarbeitung der Videobilder und eines Vergleichs derselben, ist hilfreich und daher vorzugsweise implementiert.
Bezugszeichenliste

100: Handscanner
104: Fußteil
106: Griffteil
108: Kopfteil
111: erste Kamera
112: zweite Kamera
113: Farbkamera
115: Anzeige- und Bedieneinrichtung
118: Steuer- und Auswerteeinrichtung
121: (erster) Projektor
122: zweiter Projektor
124: diffraktives optisches Element
126: Auslöser
130: separater Projektor
B₁₁₁: Bildebene der ersten Kamera
B₁₁₂: Bildebene der zweiten Kamera
e: Epipolarlinie
F, F_n: Frame
F_i: Key-Frame
[F]_i: Gruppe
O: Objekt
P₁₂₁: Projektorebene
V, Vj, V_n: Frustum
X, X': Muster
Y: stationäres Muster

Claims

Verfahren zum optischen Abtasten und Vermessen einer Umgebung mittels eines Handscanners (100) zur Erstellung von 3D-Scans, wobei der Handscanner (100) mittels wenigstens eines Projektors (121, 122) wenigstens ein Muster (X, X') auf einem Objekt (O) in der Umgebung erzeugt und mittels wenigstens einer Kamera (111, 112, 113) das mit dem Muster (X, X') versehene Objekt (O) mit einer Vielzahl von Aufnahmen (Frames F) in Sequenzen aufnimmt und dabei das Objekt (O) umrundet, dadurch gekennzeichnet, dass zur Auffindung eines beim Umrunden des Objekts (O) auftretenden Ringschluss in der Vielzahl von Aufnahmen (Frames F) in einem ersten Schritt zu jeder Aufnahme (Frame F) in der Vielzahl von Aufnahmen (Frames F) ein Frustum (V) gebildet wird als endlicher Teil eines sich von der Bildebene (B₁₁₁, B₁₁₂) der Kamera (111, 112, 113) aus ins Unendliche erstreckender, pyramidenstumpfförmigen Raumbereichs des zugeordneten 3D-Scans, welcher aus der Aufnahme (Frame F) ermittelt wird, wobei dem zuletzt aufgenommenen, aktuellen Frame (F_n) das aktuelle Frustum (V_n) und jeder vergangenen Aufnahme (Frame F) in der Vielzahl von Aufnahmen (Frames F) ein weiteres Frustum (Vj) zugeordnet ist, in einem zweiten Schritt das aktuelle Frustum (V_n) mit mehreren der weiteren Frusta (Vj) – mittels Bildung der Schnittmenge zwischen dem aktuellen Frustum (V_n) und jedem Frustum (Vj) der mehreren weiteren Frusta (Vj) – verglichen wird, wobei dasjenige Frustum (Vj), mit welchem die größte Schnittmenge besteht, ausgewählt wird, in einem dritten Schritt innerhalb des aktuelle Frustums (V_n) und des ausgewählten Frustums (Vj) jeweils Merkmale gesucht werden, in einem vierten Schritt die gefundenen Merkmale miteinander verglichen und die übereinstimmenden Merkmale identifiziert werden, und in einem fünften Schritt in Abhängigkeit vom Grad der Übereinstimmung der übereinstimmenden Merkmale die Entscheidung erfolgt, ob ein Ringschluss vorliegt oder nicht.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass aus den identifizierten, übereinstimmenden Merkmalen gemeinsame Merkmale generiert werden, mittels derer in einem sechsten Schritt Fehler der Messungen korrigiert werden, insbesondere bis zu einer bestimmten Eindringtiefe.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die im sechsten Schritt nicht-korrigierbaren Fehler ein Maß für die Qualität der Messungen bilden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die gebildeten Frusta (V) jeweils wenigstens näherungsweise 80% der erfassten Punkte aus der dreidimensionalen Punktwolke des jeweiligen 3D-Scans enthält
Verfahren nach dem Oberbegriff des Anspruches 1, insbesondere nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Mittelung über benachbarte Frames (F) erfolgt, indem in einem ersten Mittelungsschritt die Frames (F) in Gruppen ([F]_i) eingeteilt und innerhalb jeder Gruppe ([F]_i) in einer gemeinsamen zweidimensionalen Datenstruktur die angefallenen Messwerte als Vektor gespeichert werden, jeweils mit deren Graustufen/Farben und Abständen zum Handscanner (100), und indem in einem zweiten Mittelungsschritt innerhalb jeder Gruppe ([F]_i) über einen definierten Anteil des Vektors im Mittenbereich der sortierten Messwerte hinsichtlich der Graustufen/Farben und/oder der Abstände gemittelt wird.