-
Augmented
Reality, erweiterte Realität,
ist eine Form der Mensch-Technik-Interaktion, die dem Menschen z.
B. über
eine Datenbrille Informationen in sein Sichtfeld einblendet und
damit die von ihm wahrgenommene Realität erweitert. Dieses geschieht
kontextabhängig,
d. h. passend zum und abgeleitet vom betrachteten Objekt, z. B.
einem Bauteil, einem Werkzeug, einer Maschine oder zu seinem Standort.
Beispiel hierfür
kann ein Sicherheitshinweis während
eines Montage-/Demontageprozeses sein.
-
Um
diese virtuelle Erweiterung des Blickfeldes positionsgenau zu erreichen,
werden Trackingverfahren eingesetzt. Diese können sowohl aus Hard- als auch
Software bestehen. Dabei kommen optische, inertiale, akustische,
magnetische oder weitere Verfahren zum Einsatz. Für die Darstellung der
Informationen werden zusätzliche,
am Körper
getragene Geräte
benötigt.
Diese Geräte
dienen der Informationsbereitstellung und über eine Empfangs- und Sendeeinrichtung
wird die Kopplung zu Unternehmensdatenquellen realisiert. Für die Darstellung der
Informationen wird ein am Kopf getragenes Display verwendet.
-
Diese
Geräte
können
in den Anwendungsdomänen
produzierende Industrie, Medizin oder im Konsumerbereich eingesetzt
werden. In der produzierenden Industrie können Anwendungen von einfachen
Bedien- und Beobachtungsprozessen bis hin zu komplexen Servicetätigkeiten
unterstützt
werden. Bei Operationen, Untersuchungen und Behandlungen im medizinischen
Umfeld dienen solche Verfahren und Geräte dem Benutzer zur Verbesserung
der Arbeitsqualität.
Im Konsumerbereich können
Anwendungen wie z.B. Navigation von Personen, Informationsbreitstellung
etc. realisiert werden.
-
Für die Bestimmung
der Benutzerposition und dessen Blickrichtung, welche für eine positionsgenaue Überlagerung
notwendig sind, kommen heute Trackingverfahren zum Einsatz. Diese
Verfahren haben für
sich genommen Vorteile aber auch Nachteile. So kommt ein optisches
Verfahren ohne zusätzliche
Instrumentierung aus, benötigt
dafür aber
sehr viel Rechenleistung, welche derzeit nicht durch ein industrietaugliches
mobiles System bereitgestellt werden kann. Inertiale Systeme verfügen über sehr gute
Echtzeitfähigkeit,
wohingegen solche Verfahren nur relative Bewegungen des Benutzers
erfassen können.
Magnetische Verfahren sind anfällig
gegenüber
magnetischen Feldern, so dass in industriellen Umgebungen aufgrund
der vorhandenen Maschinen und der elektrischen Antriebe solche Verfahren
gestört
werden. Ebenso können
aufgrund der Geräuschkulisse
in einer Produktionshalle akustische Verfahren nur bedingt zum Einsatz
kommen.
-
Diese
unterschiedlichen Verfahren werden bisher fast ausschließlich alleine
für sich
betrachtet. Erste Ansätze
gibt es bei der Kombination dieser Verfahren (z.B. inertial mit
akustisch). Diese Ansätze sind
aber aufgrund der aufwendigen Instrumentierung der Umgebung für industrielle,
medizinische oder Konsumer-Anwendungen nicht geeignet.
-
Für die Überlagerung
der Informationen mit dem realen Sichtfeld kommen heute am Kopf
getragene Displays, so genannte Head-Mounted-Displays, zum Einsatz.
Zur Erfassung der Position wird bei einem optischen Tracking-Verfahren
eine Kamera benötigt,
bei einem intertialen oder akustischen Verfahren werden hierzu Sensoren
benötigt.
Um beide Hände
beim Einsatz eines solchen Systems frei zur Erfüllung der Aufgabe zu haben,
wird eine Sprachsteuerung inkl. Sprachausgabe benötigt. Dieses
wird über
ein Mikrophon und ein Kopfhörer
realisiert.
-
In
heute zur Verfügung
stehenden Systemen werden diese einzelnen Komponenten separat an
ein Trägersystem
angebaut. Hierdurch entstehen erhebliche Nachteile hinsichtlich
Ergono mie und damit hinsichtlich der Akzeptanz des Benutzers. Dieses
bedeutet, dass alle Komponenten mittels Kabel mit dem Verarbeitungssystem
gekoppelt werden müssen,
um Daten zu empfangen, Daten bereitzustellen oder um die Energieversorgung
sicher zu stellen. Durch diese umständliche Verkabelung kann nicht
von einem ganzheitlichen Ansatz gesprochen werden.
-
Weiter
wird die Verarbeitung zum Tracking zentral auf einer Verarbeitungseinheit
abgewickelt. Durch diesen Ansatz wird diese Einheit mit Operationen,
wie z.B. der Binarisierung des Videobildes, Komprimierung der Bilddaten,
Berechnung von Positions- und Blickrichtungsdaten etc., belastet,
so dass für
das eigentliche Tracken und dem nachgelagerten Darstellen der virtuellen
Informationen weniger Rechenleistung zur Verfügung steht. Die Daten weiterer angekoppelter
Sensoren müssen
auf dieser zentralen Verarbeitungseinheit mit dem Ergebnis der anderen
Verfahren verschmolzen werden. Durch diese zentralisierte Verarbeitung
auf einer Verarbeitungseinheit kann es zu Engpässen während der Verarbeitung kommen.
-
Wird
versucht, die zentrale Verarbeitungseinheit mit den am Kopf getragene
Geräte
per Funk zu verbinden, entsteht bei analoger Übertragung eine zu große Belegung
der Frequenzbandbreite, was nur sehr wenige Geräte in einer Umgebung/Halle/
Raum zulassen würde.
Bei der Digitalisierung und Komprimierung der Signale verringert
sich die ursprüngliche Signalqualität (Bild,
Ton...) und entsteht eine Latenzzeit auf dem Weg (zur zentralen
Verarbeitungseinheit und zurück),
die für
den Benutzer unerträglich
wird.
-
Die
Aufgabe der vorliegenden Erfindung ist daher, ein System sowie ein
Verfahren anzugeben, welches eine Verarbeitung und Darstellung der
durch verschiedene Erfassungsmittel erfassten Daten vor Ort für einen
Anwender ermöglicht.
-
Diese
Aufgabe wird erfindungsgemäß durch die
Merkmale des Patentanspruchs 1 gelöst. Die Aufgabe wird weiterhin
durch die Merkmale des nebengeordneten Patentanspruchs 9 gelöst.
-
Der
Erfindung liegt die Erkenntnis zugrunde, dass verschiedene Geräte zur Positions-
und Blickrichtungserfassung, zur Darstellung der Informationen und
zur Sprachein- und -ausgabe integriert in einer Einheit am Kopf
getragen werden. Dort werden die aufgenommenen Daten durch vorarbeitende
Einheiten passend zu dem Benutzerkontext analysiert, kombiniert
und transformiert. Es entstehen nur ganz geringe Daten, die ohne
Latenzzeit an eine mobile Recheneinheit per Funk weitergeschickt
werden, wo sie dann genutzt werden um eine Überlagerung zu berechnen. Die
kabellose Verbindung verbessert die Ergonomie.
-
Dadurch
dass Sensordaten vorverarbeitet werden, werden die Recheneinheiten
entlastet. Eine frühzeitige
Verschmelzung der Positions- und Blickrichtungsdaten erleichtert
die Verarbeitung, summiert Vorteile, minimiert Nachteile und liefert
insgesamt verbesserte Ergebnisse. Diese verbesserten Ergebnisse
bewirken eine Steigerung der Genauigkeit bei der positionsgenauen Überlagerung
des realen Blickfeldes, aber auch eine erhebliche Steigerung der
Effizienz und Reaktionszeit des Gesamtsystems gegenüber einem
System mit nur einem Verfahren zur Positions- und Blickrichtungserkennung.
Die Flexibilität
des Systems erlaubt weiterhin die reduzierten Sensordaten an weitere
zentrale Recheneinheiten zu senden, die Mehrwertdienste anbieten.
Diese können
beispielsweise Liefern von Kontextdaten und Konfigurationen für die am
Kopfgetragenen Geräte, die
die Genauigkeit verbessern oder gar diese initialisieren.
-
Hierdurch
können
die Vorteile der einzelnen Verfahren zur Positionsbestimmung ausgenutzt
werden und das Gesamtergebnis erheblich verbessert werden. Weiter
werden durch die kabellose Verbindung zur zentralen Recheneinheit
wesentliche Vor teile bei der Ergonomie und damit bei der Akzeptanz des
Benutzers erreicht.
-
Ziel
ist eine möglichst
genaue Bestimmung der Benutzerposition sowie dessen Blickrichtung.
Die Genauigkeit dieser Verarbeitungsschritte entscheidet später über die
Qualität
der positionsgenauen Überlagerung
des realen Blickfeldes. Dieser Aufbau hat den Vorteil, dass durch
die dezentrale Vorverarbeitung der Daten die zentrale Recheneinheit
entlastet wird. Durch spezielle Prozessoreinheiten wird die Recheneinheit
weiter entlastet.
-
Der
entscheidende Vorteil dieses Systems ist der ganzheitliche, integrative
Ansatz. Eine frühzeitige
Kopplung der Daten zur Positions- und Blickrichtungsbestimmung bewirkt
eine Verbesserung der Genauigkeit der Positionsbestimmung. Hierdurch können die
verfahrensspezifischen Vorteile der einzelnen Verfahren gebündelt und
die Nachteile minimiert werden. Durch die damit verbundene Reduzierung
der zu übertragenden
Daten, bleibt die Echtzeitfähigkeit
trotz verteilter Verarbeitung erhalten. Durch spezialisierte Chiplösungen (Controller,
DSP) kann sogar das System wirtschaftlicher gebaut werden, als mit
Hilfe von Standard Rechnerstrukturen. Weiter besteht die Möglichkeit
rechenintensive Verarbeitungsschritte auf eine zentrale Recheneinheit
auszulagern. Durch den integrativen Ansatz der am Kopf getragenen
Geräte
kann Gewicht eingespart und damit der Tragekomfort verbessert und
die kooperative Verarbeitung der entstehenden Daten unterstützt werden.
-
Weitere
vorteilhafte Ausführungen
der Erfindung sind in den Unteransprüchen angegeben.
-
Im
Folgenden ist die Erfindung anhand des in der Figur dargestellten
Ausführungsbeispiels
näher beschrieben
und erläutert:
Die
Figur gibt einen Überblick über den
Aufbau der Geräte
und Verfahren zur positionsgenauen Überlagerung eines realen Blickfeldes.
Dabei stehen die kabellosen Verbindungen zwischen den einzelnen Komponenten
und die Vorverarbeitung der aufgenommenen Daten an der Videokamera
bzw. an den Sensoren im Vordergrund.
-
Dem
Benutzer werden mobile am Körper bzw.
am Kopf getragene Geräte 1 zur
Verfügung
gestellt, die sich dadurch auszeichnen, dass die einzelnen Komponenten 2, 3, 5 und 7 aufeinander
abgestimmt sind. Das bedeutet, dass zur Erfüllung der Aufgabe (Positions-
und Blickrichtungsbestimmung, Sprachsteuerung, -ausgabe etc.) Daten
durch die Verarbeitungseinheiten 4, 6, 8 und 10 vorverarbeitet und
untereinander ausgetauscht werden können. Weiter bedeutet dies,
dass die benötigten
Einzelkomponenten zu einer integrierten Komplettlösung gebracht
werden.
-
Die
am Kopf getragene Einheit beinhaltet dabei die Visualisierungseinheit 2,
welche über
eine drahtlose Verbindung 9 mit der Verarbeitungseinheit 12 verbunden
ist. Diese Visualisierungseinheit ermöglicht die Wahrnehmung der
realen Umgebung des Benutzers und zusätzlich die positionsgenaue Überlagerung
von Informationen wie z.B. einfache Texte, Pfeile, Kreise, aber
auch komplexe Geometrien.
-
Die
optische Positions- und Blickrichtungserkennung wird mittels einer
Kamera 3 durchgeführt. Die
Videodaten werden auf einer lokalen Verarbeitungseinheit 4 vorverarbeitet.
Dieses kann zum Beispiel die Komprimierung der Bilddaten, eine Binarisierung
des Bildes, aber auch Daten zur Bestimmung der Position und Blickrichtung
sein.
-
Zusätzliche
Sensoren, wie z.B. inertial, magnetisch, akustisch etc. 5 inkl.
einer Datenvorverarbeitung über
eine entsprechende Verarbeitungseinheit 6 werden in das
Gerät 1 integriert.
Solche Sensoren können
Teile von Daten oder kom plette Daten zur Positions- und Blickrichtungserkennung
liefern.
-
Zur
Steuerung der Arbeitsaufgabe und zum zusätzlichen aufnehmen von Informationen über eine Sprachausgabe
wird ein Mikrophon und ein Kopfhörer 7 angebracht.
Die Vorverarbeitung der aufgenommenen Signale geschieht über die
Verarbeitungseinheit B. Zur frühzeitigen
Verschmelzung dieser Daten wird eine übergreifende Verarbeitungseinheit 10 benötigt. Diese
führt die
entstehenden Daten zusammen und ermöglicht das frühzeitige
Verschmelzen der Daten zur Positions- und Blickrichtungserkennung,
oder eine Weiterverarbeitung für
die Sprachsteuerung und -ausgabe.
-
Die
am Körper
getragene Recheneinheit 12 ist über eine drahtlose Verbindung 11 mit
der am Kopf getragenen Einheit 2-10 verbunden. Über die
Verarbeitungseinheit 13 werden die vorverarbeiteten Daten
weiterverarbeitet. Dieses kann mit speziellen Prozessoreinheiten 14 unterstützt werden.
Weitere Verarbeitungsprozesse können über die
drahtlose Verbindung 11 auch durch externe Recheneinheiten 15, 16 durchgeführt werden.
-
Es
können
weitere Verarbeitungsschritte ausgegliedert werden. Durch die Reduzierung
der Anforderungen für
die zentrale, mobile Recheneinheit 12 kann diese kleiner
und leichter ausgeprägt werden,
oder das Freiwerden von Rechenleistung anderweitig, z.B. für weitere
Optimierungsschritte bei der Positions- und Blickrichtungsbestimmung
oder für
die Sprachsteuerung, genutzt werden.
-
Die
Verarbeitungseinheiten 4, 6, 8 und 10 beeinflussen
sich gegenseitig, so dass die Konfigurationen/Parameter in einem
Regelkreis verbessert werden. Beispielsweise sammelt die Verarbeitungseinheit 10 die
Daten aus 6 und beeinflusst damit die Parameter von 4.
Das Verfahren läuft
analog zum menschlichem Gehirn: 3 ist hier das Auge, 4 ist
das Sehzentrum, 5 ist das Gleichgewichtsorgan im Ohr, 6 ist
das Gleichgewichtszentrum und 10 ist das übergreifende „Entscheidungszentrum".
-
Die
Lage aus dem Gleichgewicht 5 wird vom Sehzentrum 3 benutzt,
um die Objekte im Blickfeld richtig zu erkennen. Eine externe Recheneinheit 15 kann über eine
drahtlose Verbindung 17 die Verarbeitung auf der mobilen
Recheneinheit 12 unterstützen. Hierzu werden die ankommenden
Daten an die Verarbeitungseinheit 16 übergeben und nach der Verarbeitung
wieder an die am Körper
getragene Einheit 12 übertragen.
Dieses ist insbesondere bei besonders aufwendigen Verarbeitungen
sinnvoll, da stationäre
Systeme eine wesentlich höhere
Verarbeitungsgeschwindigkeit aufweisen.
-
Zur
Unterstützung
der durchzuführenden
Tätigkeiten
können
die Daten an eine entfernte Person 18 transferiert werden.
Diese kann über
Interaktionen die positionsgenauen Überlagerungen der mobilen Einheit
manipulieren und damit bei den durchzuführenden Tätigkeiten Hilfestellungen geben.
-
Ein
Szenario für
eine mögliche
Nutzung der AR-Geräte
ist wie folgt:
- 1. Der Benutzer bewegt sich
in einer Umgebung z.B. einer Halle.
- 2. Er steht vor einer gestörte/defekte
Maschine. Dabei trägt
der die AR-Geräte 1 wie
es in der Figur dargestellt ist.
- 3. Die Vorverarbeitung 4 stellt fest, dass keine Konfiguration
geladen ist. Diese gestattet eine Blickrichtung/ Position in der
Umgebung zu berechnen. Die Vorverarbeitung 4 holt ein Bild
aus der Kamera 3, komprimiert es und schickt es zu der
mobilen Recheneinheit 12 via 10, 11 und 13.
- 4. Eine Zentrale Recheneinheit 15 empfängt das Bild
und sucht den Kontext anhand des gespeicherten Umgebungswissens.
Sind die (Tracking-) Daten zur Maschine bzw. Umgebung gefunden, Schickt
sie auf dem umgekehrten Weg die Konfigurationen und Initialisierungen
für die
Vorverarbeitungseinheiten 13, 10, 4, 6 und 8.
Bei der Kamera sind es Raumkoordinaten der Merkmale der Maschine,
die mit Computer Vision-Algorithmen extrahierbar sind (Bsp. etwa
50 Punkte im Raum). Diese Merkmale versucht die vorverarbeitungseinheit 4 in
den Videobilder zu finden, um letztendlich die Position des Betrachters/Benutzers
zu berechnen. Die Vorverarbeitung 8 bekommt spezielle Parameter,
die eine Codierung und Erkennung von Audiodaten in der passenden
Umgebung (Geräusche,
Grundlärmpegel)
optimal gestatten.
- 5. Die Vorverarbeitungseinheiten 4, 6, und 8 liefern
ab dann ihre stark reduzierten Daten an die Verarbeitungseinheit 10,
die wiederum die Kombination durchführt und neue Parameter berechnet (im
Sinne von Regelkreisen) an diese Verarbeitungseinheiten 4, 6,
und 8 zurückschickt.
Als Beispiel für
eine Reduktion ist zu erwähnen,
dass ein Kamerabild in 4 in der Größe von beinah 1 MByte eingespeist
wird. Die Verarbeitungseinheiten 4 und 10 berechnen
letztendlich nur ganz wenige Bytes als Kopfposition (beispielsweise
einen Vector aus 6 Zahlen à 4
Bytes).
- 6. Die mobile Recheneinheit 12 empfängt über die Drahtlose Verbindung 11 und 9 die
Kopfposition des Benutzers und kombiniert sie mit den Kontextdaten,
die aus der externen Rechnereinheit 15 stammen, um die
richtige Überlagerung
im Sichtfeld zu generieren. Das entstanden Bild wird dann drahtlos
an das Display 2 geschickt, wo es dem Benutzer in Form
von augmentierter Information über
eine Datenbrille zur Verfügung
gestellt wird.
- 7. Wird eine weitere Person 18 hinzugezogen, dann fordert
die externe Recheneinheit 15 von der Verarbeitungseinheiten 4 und 10 in
regelmäßigen Abstand
ein Bild aus der Kamera. Diese Informationen müssen nicht in einer hohen Frequenz
geliefert werden (1 Bild/s ist ausreichend) und belasten damit die
anderen Echtzeitsignale (Audio, Trackingposition) nur geringfügig. Der
Grund für
die niedrige Rate ist an dieser Stelle die Tatsache, dass die Übertragung über z.B.
Telefonleitung/GSM-Netz stattfindet.