DE10361512A1

DE10361512A1 - Vorrichtung und Verfahren zur positionsgenauen Überlagerung des realen Blickfeldes

Info

Publication number: DE10361512A1
Application number: DE2003161512
Authority: DE
Inventors: Mehdi Hamadou; Dirk Jahn
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2003-12-23
Filing date: 2003-12-23
Publication date: 2005-07-28
Also published as: WO2005064440A3; WO2005064440A2

Abstract

Die Erfindung betrifft eine Vorrichtung und ein Verfahren zur Darstellung von Umgebungsinformationen für einen Anwender, wobei die Informationen positionsgenau das reale Blickfeld des Anwenders überlagern. Mittels verschiedener Erfassungseinheiten (3, 5, 7) werden Umgebungsinformationen erfasst. Die erfassten Informationen werden direkt auf der mobilen Vorrichtung vorverarbeitet und im Rahmen eines Regelkreises werden die Informationen verschmolzen, mit Kontext-Information angereichert und die genaue Position des Anwenders kann bestimmt werden.

Description

Augmented Reality, erweiterte Realität, ist eine Form der Mensch-Technik-Interaktion, die dem Menschen z. B. über eine Datenbrille Informationen in sein Sichtfeld einblendet und damit die von ihm wahrgenommene Realität erweitert. Dieses geschieht kontextabhängig, d. h. passend zum und abgeleitet vom betrachteten Objekt, z. B. einem Bauteil, einem Werkzeug, einer Maschine oder zu seinem Standort. Beispiel hierfür kann ein Sicherheitshinweis während eines Montage-/Demontageprozeses sein.
Um diese virtuelle Erweiterung des Blickfeldes positionsgenau zu erreichen, werden Trackingverfahren eingesetzt. Diese können sowohl aus Hard- als auch Software bestehen. Dabei kommen optische, inertiale, akustische, magnetische oder weitere Verfahren zum Einsatz. Für die Darstellung der Informationen werden zusätzliche, am Körper getragene Geräte benötigt. Diese Geräte dienen der Informationsbereitstellung und über eine Empfangs- und Sendeeinrichtung wird die Kopplung zu Unternehmensdatenquellen realisiert. Für die Darstellung der Informationen wird ein am Kopf getragenes Display verwendet.
Diese Geräte können in den Anwendungsdomänen produzierende Industrie, Medizin oder im Konsumerbereich eingesetzt werden. In der produzierenden Industrie können Anwendungen von einfachen Bedien- und Beobachtungsprozessen bis hin zu komplexen Servicetätigkeiten unterstützt werden. Bei Operationen, Untersuchungen und Behandlungen im medizinischen Umfeld dienen solche Verfahren und Geräte dem Benutzer zur Verbesserung der Arbeitsqualität. Im Konsumerbereich können Anwendungen wie z.B. Navigation von Personen, Informationsbreitstellung etc. realisiert werden.
Für die Bestimmung der Benutzerposition und dessen Blickrichtung, welche für eine positionsgenaue Überlagerung notwendig sind, kommen heute Trackingverfahren zum Einsatz. Diese Verfahren haben für sich genommen Vorteile aber auch Nachteile. So kommt ein optisches Verfahren ohne zusätzliche Instrumentierung aus, benötigt dafür aber sehr viel Rechenleistung, welche derzeit nicht durch ein industrietaugliches mobiles System bereitgestellt werden kann. Inertiale Systeme verfügen über sehr gute Echtzeitfähigkeit, wohingegen solche Verfahren nur relative Bewegungen des Benutzers erfassen können. Magnetische Verfahren sind anfällig gegenüber magnetischen Feldern, so dass in industriellen Umgebungen aufgrund der vorhandenen Maschinen und der elektrischen Antriebe solche Verfahren gestört werden. Ebenso können aufgrund der Geräuschkulisse in einer Produktionshalle akustische Verfahren nur bedingt zum Einsatz kommen.
Diese unterschiedlichen Verfahren werden bisher fast ausschließlich alleine für sich betrachtet. Erste Ansätze gibt es bei der Kombination dieser Verfahren (z.B. inertial mit akustisch). Diese Ansätze sind aber aufgrund der aufwendigen Instrumentierung der Umgebung für industrielle, medizinische oder Konsumer-Anwendungen nicht geeignet.
Für die Überlagerung der Informationen mit dem realen Sichtfeld kommen heute am Kopf getragene Displays, so genannte Head-Mounted-Displays, zum Einsatz. Zur Erfassung der Position wird bei einem optischen Tracking-Verfahren eine Kamera benötigt, bei einem intertialen oder akustischen Verfahren werden hierzu Sensoren benötigt. Um beide Hände beim Einsatz eines solchen Systems frei zur Erfüllung der Aufgabe zu haben, wird eine Sprachsteuerung inkl. Sprachausgabe benötigt. Dieses wird über ein Mikrophon und ein Kopfhörer realisiert.
In heute zur Verfügung stehenden Systemen werden diese einzelnen Komponenten separat an ein Trägersystem angebaut. Hierdurch entstehen erhebliche Nachteile hinsichtlich Ergono mie und damit hinsichtlich der Akzeptanz des Benutzers. Dieses bedeutet, dass alle Komponenten mittels Kabel mit dem Verarbeitungssystem gekoppelt werden müssen, um Daten zu empfangen, Daten bereitzustellen oder um die Energieversorgung sicher zu stellen. Durch diese umständliche Verkabelung kann nicht von einem ganzheitlichen Ansatz gesprochen werden.
Weiter wird die Verarbeitung zum Tracking zentral auf einer Verarbeitungseinheit abgewickelt. Durch diesen Ansatz wird diese Einheit mit Operationen, wie z.B. der Binarisierung des Videobildes, Komprimierung der Bilddaten, Berechnung von Positions- und Blickrichtungsdaten etc., belastet, so dass für das eigentliche Tracken und dem nachgelagerten Darstellen der virtuellen Informationen weniger Rechenleistung zur Verfügung steht. Die Daten weiterer angekoppelter Sensoren müssen auf dieser zentralen Verarbeitungseinheit mit dem Ergebnis der anderen Verfahren verschmolzen werden. Durch diese zentralisierte Verarbeitung auf einer Verarbeitungseinheit kann es zu Engpässen während der Verarbeitung kommen.
Wird versucht, die zentrale Verarbeitungseinheit mit den am Kopf getragene Geräte per Funk zu verbinden, entsteht bei analoger Übertragung eine zu große Belegung der Frequenzbandbreite, was nur sehr wenige Geräte in einer Umgebung/Halle/ Raum zulassen würde. Bei der Digitalisierung und Komprimierung der Signale verringert sich die ursprüngliche Signalqualität (Bild, Ton...) und entsteht eine Latenzzeit auf dem Weg (zur zentralen Verarbeitungseinheit und zurück), die für den Benutzer unerträglich wird.
Die Aufgabe der vorliegenden Erfindung ist daher, ein System sowie ein Verfahren anzugeben, welches eine Verarbeitung und Darstellung der durch verschiedene Erfassungsmittel erfassten Daten vor Ort für einen Anwender ermöglicht.
Diese Aufgabe wird erfindungsgemäß durch die Merkmale des Patentanspruchs 1 gelöst. Die Aufgabe wird weiterhin durch die Merkmale des nebengeordneten Patentanspruchs 9 gelöst.
Der Erfindung liegt die Erkenntnis zugrunde, dass verschiedene Geräte zur Positions- und Blickrichtungserfassung, zur Darstellung der Informationen und zur Sprachein- und -ausgabe integriert in einer Einheit am Kopf getragen werden. Dort werden die aufgenommenen Daten durch vorarbeitende Einheiten passend zu dem Benutzerkontext analysiert, kombiniert und transformiert. Es entstehen nur ganz geringe Daten, die ohne Latenzzeit an eine mobile Recheneinheit per Funk weitergeschickt werden, wo sie dann genutzt werden um eine Überlagerung zu berechnen. Die kabellose Verbindung verbessert die Ergonomie.
Dadurch dass Sensordaten vorverarbeitet werden, werden die Recheneinheiten entlastet. Eine frühzeitige Verschmelzung der Positions- und Blickrichtungsdaten erleichtert die Verarbeitung, summiert Vorteile, minimiert Nachteile und liefert insgesamt verbesserte Ergebnisse. Diese verbesserten Ergebnisse bewirken eine Steigerung der Genauigkeit bei der positionsgenauen Überlagerung des realen Blickfeldes, aber auch eine erhebliche Steigerung der Effizienz und Reaktionszeit des Gesamtsystems gegenüber einem System mit nur einem Verfahren zur Positions- und Blickrichtungserkennung. Die Flexibilität des Systems erlaubt weiterhin die reduzierten Sensordaten an weitere zentrale Recheneinheiten zu senden, die Mehrwertdienste anbieten. Diese können beispielsweise Liefern von Kontextdaten und Konfigurationen für die am Kopfgetragenen Geräte, die die Genauigkeit verbessern oder gar diese initialisieren.
Hierdurch können die Vorteile der einzelnen Verfahren zur Positionsbestimmung ausgenutzt werden und das Gesamtergebnis erheblich verbessert werden. Weiter werden durch die kabellose Verbindung zur zentralen Recheneinheit wesentliche Vor teile bei der Ergonomie und damit bei der Akzeptanz des Benutzers erreicht.
Ziel ist eine möglichst genaue Bestimmung der Benutzerposition sowie dessen Blickrichtung. Die Genauigkeit dieser Verarbeitungsschritte entscheidet später über die Qualität der positionsgenauen Überlagerung des realen Blickfeldes. Dieser Aufbau hat den Vorteil, dass durch die dezentrale Vorverarbeitung der Daten die zentrale Recheneinheit entlastet wird. Durch spezielle Prozessoreinheiten wird die Recheneinheit weiter entlastet.
Der entscheidende Vorteil dieses Systems ist der ganzheitliche, integrative Ansatz. Eine frühzeitige Kopplung der Daten zur Positions- und Blickrichtungsbestimmung bewirkt eine Verbesserung der Genauigkeit der Positionsbestimmung. Hierdurch können die verfahrensspezifischen Vorteile der einzelnen Verfahren gebündelt und die Nachteile minimiert werden. Durch die damit verbundene Reduzierung der zu übertragenden Daten, bleibt die Echtzeitfähigkeit trotz verteilter Verarbeitung erhalten. Durch spezialisierte Chiplösungen (Controller, DSP) kann sogar das System wirtschaftlicher gebaut werden, als mit Hilfe von Standard Rechnerstrukturen. Weiter besteht die Möglichkeit rechenintensive Verarbeitungsschritte auf eine zentrale Recheneinheit auszulagern. Durch den integrativen Ansatz der am Kopf getragenen Geräte kann Gewicht eingespart und damit der Tragekomfort verbessert und die kooperative Verarbeitung der entstehenden Daten unterstützt werden.
Weitere vorteilhafte Ausführungen der Erfindung sind in den Unteransprüchen angegeben.
Im Folgenden ist die Erfindung anhand des in der Figur dargestellten Ausführungsbeispiels näher beschrieben und erläutert:
Die Figur gibt einen Überblick über den Aufbau der Geräte und Verfahren zur positionsgenauen Überlagerung eines realen Blickfeldes. Dabei stehen die kabellosen Verbindungen zwischen den einzelnen Komponenten und die Vorverarbeitung der aufgenommenen Daten an der Videokamera bzw. an den Sensoren im Vordergrund.
Dem Benutzer werden mobile am Körper bzw. am Kopf getragene Geräte 1 zur Verfügung gestellt, die sich dadurch auszeichnen, dass die einzelnen Komponenten 2, 3, 5 und 7 aufeinander abgestimmt sind. Das bedeutet, dass zur Erfüllung der Aufgabe (Positions- und Blickrichtungsbestimmung, Sprachsteuerung, -ausgabe etc.) Daten durch die Verarbeitungseinheiten 4, 6, 8 und 10 vorverarbeitet und untereinander ausgetauscht werden können. Weiter bedeutet dies, dass die benötigten Einzelkomponenten zu einer integrierten Komplettlösung gebracht werden.
Die am Kopf getragene Einheit beinhaltet dabei die Visualisierungseinheit 2, welche über eine drahtlose Verbindung 9 mit der Verarbeitungseinheit 12 verbunden ist. Diese Visualisierungseinheit ermöglicht die Wahrnehmung der realen Umgebung des Benutzers und zusätzlich die positionsgenaue Überlagerung von Informationen wie z.B. einfache Texte, Pfeile, Kreise, aber auch komplexe Geometrien.
Die optische Positions- und Blickrichtungserkennung wird mittels einer Kamera 3 durchgeführt. Die Videodaten werden auf einer lokalen Verarbeitungseinheit 4 vorverarbeitet. Dieses kann zum Beispiel die Komprimierung der Bilddaten, eine Binarisierung des Bildes, aber auch Daten zur Bestimmung der Position und Blickrichtung sein.
Zusätzliche Sensoren, wie z.B. inertial, magnetisch, akustisch etc. 5 inkl. einer Datenvorverarbeitung über eine entsprechende Verarbeitungseinheit 6 werden in das Gerät 1 integriert. Solche Sensoren können Teile von Daten oder kom plette Daten zur Positions- und Blickrichtungserkennung liefern.
Zur Steuerung der Arbeitsaufgabe und zum zusätzlichen aufnehmen von Informationen über eine Sprachausgabe wird ein Mikrophon und ein Kopfhörer 7 angebracht. Die Vorverarbeitung der aufgenommenen Signale geschieht über die Verarbeitungseinheit B. Zur frühzeitigen Verschmelzung dieser Daten wird eine übergreifende Verarbeitungseinheit 10 benötigt. Diese führt die entstehenden Daten zusammen und ermöglicht das frühzeitige Verschmelzen der Daten zur Positions- und Blickrichtungserkennung, oder eine Weiterverarbeitung für die Sprachsteuerung und -ausgabe.
Die am Körper getragene Recheneinheit 12 ist über eine drahtlose Verbindung 11 mit der am Kopf getragenen Einheit 2-10 verbunden. Über die Verarbeitungseinheit 13 werden die vorverarbeiteten Daten weiterverarbeitet. Dieses kann mit speziellen Prozessoreinheiten 14 unterstützt werden. Weitere Verarbeitungsprozesse können über die drahtlose Verbindung 11 auch durch externe Recheneinheiten 15, 16 durchgeführt werden.
Es können weitere Verarbeitungsschritte ausgegliedert werden. Durch die Reduzierung der Anforderungen für die zentrale, mobile Recheneinheit 12 kann diese kleiner und leichter ausgeprägt werden, oder das Freiwerden von Rechenleistung anderweitig, z.B. für weitere Optimierungsschritte bei der Positions- und Blickrichtungsbestimmung oder für die Sprachsteuerung, genutzt werden.
Die Verarbeitungseinheiten 4, 6, 8 und 10 beeinflussen sich gegenseitig, so dass die Konfigurationen/Parameter in einem Regelkreis verbessert werden. Beispielsweise sammelt die Verarbeitungseinheit 10 die Daten aus 6 und beeinflusst damit die Parameter von 4. Das Verfahren läuft analog zum menschlichem Gehirn: 3 ist hier das Auge, 4 ist das Sehzentrum, 5 ist das Gleichgewichtsorgan im Ohr, 6 ist das Gleichgewichtszentrum und 10 ist das übergreifende „Entscheidungszentrum".
Die Lage aus dem Gleichgewicht 5 wird vom Sehzentrum 3 benutzt, um die Objekte im Blickfeld richtig zu erkennen. Eine externe Recheneinheit 15 kann über eine drahtlose Verbindung 17 die Verarbeitung auf der mobilen Recheneinheit 12 unterstützen. Hierzu werden die ankommenden Daten an die Verarbeitungseinheit 16 übergeben und nach der Verarbeitung wieder an die am Körper getragene Einheit 12 übertragen. Dieses ist insbesondere bei besonders aufwendigen Verarbeitungen sinnvoll, da stationäre Systeme eine wesentlich höhere Verarbeitungsgeschwindigkeit aufweisen.
Zur Unterstützung der durchzuführenden Tätigkeiten können die Daten an eine entfernte Person 18 transferiert werden. Diese kann über Interaktionen die positionsgenauen Überlagerungen der mobilen Einheit manipulieren und damit bei den durchzuführenden Tätigkeiten Hilfestellungen geben.
Ein Szenario für eine mögliche Nutzung der AR-Geräte ist wie folgt:

1. Der Benutzer bewegt sich in einer Umgebung z.B. einer Halle.
2. Er steht vor einer gestörte/defekte Maschine. Dabei trägt der die AR-Geräte 1 wie es in der Figur dargestellt ist.
3. Die Vorverarbeitung 4 stellt fest, dass keine Konfiguration geladen ist. Diese gestattet eine Blickrichtung/ Position in der Umgebung zu berechnen. Die Vorverarbeitung 4 holt ein Bild aus der Kamera 3, komprimiert es und schickt es zu der mobilen Recheneinheit 12 via 10, 11 und 13.
4. Eine Zentrale Recheneinheit 15 empfängt das Bild und sucht den Kontext anhand des gespeicherten Umgebungswissens. Sind die (Tracking-) Daten zur Maschine bzw. Umgebung gefunden, Schickt sie auf dem umgekehrten Weg die Konfigurationen und Initialisierungen für die Vorverarbeitungseinheiten 13, 10, 4, 6 und 8. Bei der Kamera sind es Raumkoordinaten der Merkmale der Maschine, die mit Computer Vision-Algorithmen extrahierbar sind (Bsp. etwa 50 Punkte im Raum). Diese Merkmale versucht die vorverarbeitungseinheit 4 in den Videobilder zu finden, um letztendlich die Position des Betrachters/Benutzers zu berechnen. Die Vorverarbeitung 8 bekommt spezielle Parameter, die eine Codierung und Erkennung von Audiodaten in der passenden Umgebung (Geräusche, Grundlärmpegel) optimal gestatten.
5. Die Vorverarbeitungseinheiten 4, 6, und 8 liefern ab dann ihre stark reduzierten Daten an die Verarbeitungseinheit 10, die wiederum die Kombination durchführt und neue Parameter berechnet (im Sinne von Regelkreisen) an diese Verarbeitungseinheiten 4, 6, und 8 zurückschickt. Als Beispiel für eine Reduktion ist zu erwähnen, dass ein Kamerabild in 4 in der Größe von beinah 1 MByte eingespeist wird. Die Verarbeitungseinheiten 4 und 10 berechnen letztendlich nur ganz wenige Bytes als Kopfposition (beispielsweise einen Vector aus 6 Zahlen à 4 Bytes).
6. Die mobile Recheneinheit 12 empfängt über die Drahtlose Verbindung 11 und 9 die Kopfposition des Benutzers und kombiniert sie mit den Kontextdaten, die aus der externen Rechnereinheit 15 stammen, um die richtige Überlagerung im Sichtfeld zu generieren. Das entstanden Bild wird dann drahtlos an das Display 2 geschickt, wo es dem Benutzer in Form von augmentierter Information über eine Datenbrille zur Verfügung gestellt wird.
7. Wird eine weitere Person 18 hinzugezogen, dann fordert die externe Recheneinheit 15 von der Verarbeitungseinheiten 4 und 10 in regelmäßigen Abstand ein Bild aus der Kamera. Diese Informationen müssen nicht in einer hohen Frequenz geliefert werden (1 Bild/s ist ausreichend) und belasten damit die anderen Echtzeitsignale (Audio, Trackingposition) nur geringfügig. Der Grund für die niedrige Rate ist an dieser Stelle die Tatsache, dass die Übertragung über z.B. Telefonleitung/GSM-Netz stattfindet.

Claims

Mobile Vorrichtung (1) zur Darstellung von Informationen, insbesondere Augmented-Reality Informationen, für einen Anwender mit – mindestens einer Erfassungseinheit (3, 5, 7) zur Erfassung von Umgebungsinformationen, – mindestens einer Verarbeitungseinheit (4, 6, 8) zur Vorverarbeitung der von der mindestens einen Erfassungseinheit (3, 5, 7) erfassten Umgebungsinformationen, – mindestens einer weitere Verarbeitungseinheit (10) zur übergreifenden Vorverarbeitung der von den Verarbeitungseinheiten (4, 6, 8) gelieferten Daten, – einer Wiedergabeeinheit (2) zur Darstellung erfasster und/oder empfangener Informationen, wobei die weitere Verarbeitungseinheit (10) auf Basis der von den Erfassungseinheiten (3, 5, 7) erfassten Informationen zur Bestimmung einer Position des Anwenders vorgesehen ist und wobei eine positionsgenaue Darstellung der Informationen für den Anwender über die Wiedergabeeinheit (2) vorgesehen ist.
Mobile Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Wiedergabeeinheit (2) zur positionsgenauen Überlagerung des realen Blickfeldes eines Anwenders mit der darzustellenden Information vorgesehen ist.
Mobile Vorrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass eine Abstimmung der Erfassungseinheiten (3, 5, 7) aufeinander vorgesehen ist.
Mobile Vorrichtung nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Verarbeitungseinheiten (4, 6, 8) zum Austausch von Daten untereinander vorgesehen sind.
Mobile Vorrichtung nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die Verarbeitungseinheit (10) zur Koordination der Erfassungseinheiten (3, 5, 7) auf Basis der von den Verarbeitungseinheiten (4, 6, 8) gelieferten Daten vorgesehen ist.
Mobile Vorrichtung nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die mobile Vorrichtung zur Kommunikation mit mindestens einer Rechnereinheit (12, 15) über einer Sende- und/oder Empfangseinheit (9) vorgesehen ist.
Mobile Vorrichtung nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass die erfassten Informationen über die mindestens eine Rechnereinheit (12, 15) für einen weiteren Anwender darstellbar sind.
Mobile Vorrichtung nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die Vorrichtung zur Nutzung von Kontext-Information zur Bestimmung einer Umbebungsposition vorgesehen ist.
Verfahren zur Darstellung von Informationen, insbesondere Augmented-Reality Informationen, für einen Anwender, bei dem – Umgebungsinformationen erfasst werden, – erfasste Umgebungsinformationen verarbeitet werden, – die von den Verarbeitungseinheiten (4, 6, 8) gelieferten Daten übergreifend weiter verarbeitet werden, – erfasste und/oder empfangene Informationen dargestellt werden, wobei auf Basis der von den erfassten Informationen eine Position des Anwenders bestimmt wird und wobei eine positionsgenaue Darstellung der Informationen für den Anwender über die Wiedergabeeinheit (2) erfolgt.
Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass die darzustellenden Informationen positionsgenau das reale Blickfeld eines Anwenders überlagern.
Verfahren nach Anspruch 9 oder 10, dadurch gekennzeichnet, dass eine Abstimmung der Erfassungseinheiten (3, 5, 7) aufeinander erfolgt.
Verfahren nach einem der Ansprüche 9 bis 11, dadurch gekennzeichnet, dass die Verarbeitungseinheiten (4, 6, 8) Daten untereinander austauschen.
Verfahren nach einem der Ansprüche 9 bis 12, dadurch gekennzeichnet, dass die Erfassungseinheiten (3, 5, 7) auf Basis der von den Verarbeitungseinheiten (4, 6, 8) gelieferten Daten koordiniert werden.
Verfahren nach einem der Ansprüche 9 bis 13, dadurch gekennzeichnet, dass die mobile Vorrichtung mit mindestens einer Rechnereinheit (12, 15) über eine Sende- und/oder Empfangseinheit (9) kommuniziert.
Verfahren nach einem der Ansprüche 9 bis 14, dadurch gekennzeichnet, dass die erfassten Informationen über die mindestens eine Rechnereinheit (12, 15) für einen weiteren Anwender dargestellt werden.
Verfahren nach einem der Ansprüche 9 bis 15, dadurch gekennzeichnet, dass Kontext-Information zur Bestimmung einer Umbebungsposition genutzt wird.