DE112020002063T5

DE112020002063T5 - Generieren einer semantischen Konstruktion einer physischen Umgebung

Info

Publication number: DE112020002063T5
Application number: DE112020002063.0T
Authority: DE
Inventors: Mark Drummond; Siva Chandra Mouli Sivapurapu; Bo MORGAN
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2019-04-23
Filing date: 2020-04-20
Publication date: 2022-03-17
Also published as: CN113795816A; US20210407185A1; US11893207B2; WO2020219379A1

Abstract

In einigen Implementierungen schließt ein Verfahren das Erhalten von Umgebungsdaten ein, die einer physischen Umgebung entsprechen. In einigen Implementierungen schließt das Verfahren das Bestimmen, basierend auf den Umgebungsdaten, einer Begrenzungsfläche der physischen Umgebung ein. In einigen Implementierungen schließt das Verfahren das Erkennen eines physischen Elements, das sich innerhalb der physischen Umgebung befindet, basierend auf den Umgebungsdaten ein. In einigen Implementierungen schließt das Verfahren das Bestimmen eines semantischen Labels für das physische Element basierend auf mindestens einem Teil der Umgebungsdaten ein, die dem physischen Element entsprechen. In einigen Implementierungen schließt das Verfahren das Generieren einer semantischen Konstruktion der physischen Umgebung basierend auf den Umgebungsdaten ein. In einigen Implementierungen schließt die semantische Konstruktion der physischen Umgebung eine Darstellung der Begrenzungsfläche, eine Darstellung des physischen Elements und das semantische Label für das physische Element ein.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNG
Diese Anmeldung beansprucht den Vorteil der vorläufigen US-Patentanmeldung Nr. 62/837.282 , die am 23. April 2019 eingereicht wurde und die hiermit durch Bezugnahme in ihrer Gesamtheit aufgenommen wird.
TECHNISCHES GEBIET
Die vorliegende Offenbarung bezieht sich allgemein auf das Generieren einer semantischen Konstruktion einer physischen Umgebung.
HINTERGRUND
Einige Vorrichtungen sind in der Lage, Umgebungen der erweiterten Realität (Enhanced Reality - ER) zu generieren und darzustellen. Einige ER-Umgebungen schließen virtuelle Umgebungen ein, bei denen es sich um simulierte Ersetzungen physischer Umgebungen handelt. Einige ER-Umgebungen schließen augmentierte Umgebungen, die modifizierte Versionen physischer Umgebungen sind, ein. Einige Vorrichtungen, die ER-Umgebungen präsentieren, schließen mobile Kommunikationsvorrichtungen wie Smartphones, am Kopf befestigte Anzeigen (HMDs), Brillen, Head-Up-Displays (HUDs) und optische Projektionssysteme ein. Die meisten bisher erhältlichen Vorrichtungen, die ER-Umgebungen präsentieren, sind unwirksam, um den gleichen Interaktionsgrad wie physische Umgebungen bereitzustellen.
Figurenliste
Damit die vorliegende Offenbarung von einem Durchschnittsfachmann verstanden werden kann, wird eine detailliertere Beschreibung unter Bezugnahme auf Gesichtspunkte einiger veranschaulichender Implementierungen bereitgestellt, von denen einige in den beigefügten Zeichnungen gezeigt werden.

1A-1G sind Diagramme, die die Generierung einer semantischen Konstruktion einer physischen Umgebung gemäß einigen Implementierungen veranschaulichen.
2 ist ein Blockdiagramm einer beispielhaften Vorrichtung gemäß einigen Implementierungen.
3A-3C sind Flussdiagrammdarstellungen eines Verfahrens zum Generieren einer semantischen Konstruktion einer physischen Umgebung gemäß einigen Implementierungen.
4 ist ein Blockdiagramm einer Vorrichtung, die mit verschiedenen Komponenten aktiviert ist, die eine semantische Konstruktion einer physischen Umgebung gemäß einigen Implementierungen generieren.

Gemäß allgemeiner Praxis sind die verschiedenen in den Zeichnungen veranschaulichten Merkmale möglicherweise nicht maßstabsgetreu gezeichnet. Dementsprechend können die Abmessungen der verschiedenen Merkmale der Übersichtlichkeit halber beliebig vergrößert oder verkleinert sein. Zudem können einige der Zeichnungen nicht alle Komponenten eines gegebenen Systems, Verfahrens oder einer gegebenen Vorrichtung darstellen. Schließlich können gleiche Bezugszeichen verwendet werden, um gleiche Merkmale überall in der Patentschrift und den Figuren gleich zu bezeichnen.
KURZDARSTELLUNG
Verschiedene hierin offenbarte Implementierungen schließen Vorrichtungen, Systeme und Verfahren zum Generieren einer semantischen Konstruktion einer physischen Umgebung ein. In verschiedenen Implementierungen schließt eine Vorrichtung einen nicht-transitorischen Speicher und einen oder mehrere Prozessoren, die mit dem nicht-transitorischen Speicher gekoppelt sind, ein. In einigen Implementierungen schließt ein Verfahren das Erhalten von Umgebungsdaten ein, die einer physischen Umgebung entsprechen. In einigen Implementierungen schließt das Verfahren das Bestimmen, basierend auf den Umgebungsdaten, einer Begrenzungsfläche der physischen Umgebung ein. In einigen Implementierungen schließt das Verfahren das Erkennen eines physischen Elements, das sich innerhalb der physischen Umgebung befindet, basierend auf den Umgebungsdaten ein. In einigen Implementierungen schließt das Verfahren das Bestimmen eines semantischen Labels für das physische Element basierend auf mindestens einem Teil der Umgebungsdaten ein, die dem physischen Element entsprechen. In einigen Implementierungen schließt das Verfahren das Generieren einer semantischen Konstruktion der physischen Umgebung basierend auf den Umgebungsdaten ein. In einigen Implementierungen schließt die semantische Konstruktion der physischen Umgebung eine Darstellung der Begrenzungsfläche, eine Darstellung des physischen Elements und das semantische Label für das physische Element ein.
Gemäß einigen Implementierungen schließt eine Vorrichtung einen oder mehrere Prozessoren, einen nicht-transitorischen Speicher und ein oder mehrere Programme ein. In einigen Implementierungen sind das eine oder die mehreren Programme in dem nicht-transitorischen Speicher gespeichert und werden von dem einen oder den mehreren Prozessoren ausgeführt. In einigen Implementierungen schließen das eine oder die mehreren Programme Anweisungen zur Durchführung oder Veranlassung der Durchführung eines beliebigen der hierin beschriebenen Verfahren ein. Gemäß einigen Implementierungen sind in einem nicht-transitorischen computerlesbaren Speichermedium Anweisungen gespeichert, die, wenn sie von einem oder mehreren Prozessoren einer Vorrichtung ausgeführt werden, bewirken, dass die Vorrichtung ein beliebiges der hierin beschriebenen Verfahren durchführt oder deren Durchführung veranlassen. Gemäß einigen Implementierungen schließt die Vorrichtung einen oder mehrere Prozessoren, einen nicht-transitorischen Speicher und Mittel zur Durchführung oder Veranlassung der Durchführung eines beliebigen der hierin beschriebenen Verfahren ein.
BESCHREIBUNG
Zahlreiche Details werden beschrieben, um ein gründliches Verständnis der in den Zeichnungen gezeigten beispielhaften Implementierungen bereitzustellen. Die Zeichnungen zeigen jedoch lediglich einige beispielhafte Gesichtspunkte der vorliegenden Offenbarung und sind daher nicht als einschränkend zu betrachten. Der Durchschnittsfachmann wird erkennen, dass andere geltende Gesichtspunkte bzw. Varianten nicht alle der hierin beschriebenen spezifischen Details einschließen. Außerdem wurden bekannte Systeme, Verfahren, Komponenten, Vorrichtungen und Schaltungen nicht ausführlich beschrieben, um relevantere Gesichtspunkte der hierin beschriebenen beispielhaften Implementierungen nicht zu verunklaren.
Verschiedene Beispiele von elektronischen Systemen und Techniken zur Verwendung solcher Systeme in Bezug auf verschiedene Technologien für eine verbesserte Realität werden beschrieben.
Eine physische Umgebung bezieht sich auf eine Welt, die verschiedene Personen wahrnehmen und/oder mit der sie interagieren können, ohne elektronische Systeme zu verwenden. Physische Umgebungen, wie ein physischer Park, schließen physische Elemente, wie zum Beispiel physische Wildtiere, physische Bäume und physische Pflanzen, ein. Personen können die physische Umgebung direkt wahrnehmen und/oder anderweitig direkt mit dieser interagieren, zum Beispiel unter Verwendung eines oder mehrerer Sinne, einschließlich Sehen, Riechen, Berühren, Schmecken und Hören.
Eine Umgebung verbesserter Realität (ER-Umgebung) bezieht sich im Gegensatz zu einer physischen Umgebung auf eine vollständig (oder teilweise) computererzeugte Umgebung, die verschiedene Personen unter Verwendung eines elektronischen Systems wahrnehmen und/oder mit der sie anderweitig interagieren können. Bei ER werden Bewegungen einer Person teilweise überwacht, und als Reaktion darauf wird mindestens ein Attribut, das mindestens einem virtuellen Objekt in der ER-Umgebung entspricht, auf eine Weise geändert, die mit einem oder mehreren physischen Gesetzen konsistent ist. Als Reaktion darauf, dass ein ER-System eine Person erkennt, die nach oben blickt, kann das ER-System zum Beispiel verschiedene Audiodaten und Grafiken, die der Person präsentiert werden, auf eine Weise anpassen, die damit konsistent ist, wie sich solche Klänge und Erscheinungsbilder in einer physischen Umgebung ändern würden. Anpassungen bei einem Attribut/Attributen eines virtuellen Objekts/virtueller Objekte in einer ER-Umgebung können zum Beispiel auch als Reaktion auf Darstellungen von Bewegung (z. B. Sprachbefehle) vorgenommen werden.
Eine Person kann unter Verwendung eines oder mehrerer Sinne, wie Sehen, Riechen, Schmecken, Berühren und Hören, ein ER-Objekt wahrnehmen und/oder mit diesem interagieren. Zum Beispiel kann eine Person Objekte, die eine mehrdimensionale oder räumliche akustische Umgebung erzeugen, wahrnehmen und/oder mit diesen interagieren. Mehrdimensionale oder räumliche akustische Umgebungen stellen einer Person eine Wahrnehmung diskreter akustischer Quellen in einem mehrdimensionalen Raum bereit. Solche Objekte können auch eine akustische Transparenz ermöglichen, die selektiv Audiodaten aus einer physischen Umgebung, entweder mit oder ohne computererzeugte(n) Audiodaten, einbeziehen kann. In einigen ER-Umgebungen kann eine Person nur akustische Objekte wahrnehmen und/oder mit diesen interagieren.
Virtuelle Realität (VR) ist ein Beispiel von ER. Eine VR-Umgebung bezieht sich auf eine verbesserte Umgebung, die konfiguriert ist, um nur computererzeugte sensorische Eingaben für einen oder mehrere Sinne einzuschließen. Eine VR-Umgebung schließt eine Vielzahl von virtuellen Objekten ein, die eine Person wahrnehmen kann und/oder mit denen sie interagieren kann. Eine Person kann virtuelle Objekte in der VR-Umgebung durch eine Simulation von mindestens einigen der Aktionen der Person innerhalb der computererzeugten Umgebung und/oder durch eine Simulation der Person oder ihrer Anwesenheit innerhalb der computererzeugten Umgebung wahrnehmen und/oder mit diesen interagieren.
Gemischte Realität (MR) ist ein weiteres Beispiel von ER. Eine MR-Umgebung bezieht sich auf eine verbesserte Umgebung, die konfiguriert ist, um computererzeugte sensorische Eingaben (z. B. virtuelle Objekte) mit sensorischen Eingaben aus der physischen Umgebung oder einer Darstellung von sensorischen Eingaben aus der physischen Umgebung zu verbinden. In einem Realitätsspektrum liegt eine MR-Umgebung zwischen einer vollständig physischen Umgebung an einem Ende und einer VR-Umgebung am anderen Ende, aber schließt diese nicht ein.
In einigen MR-Umgebungen können computererzeugte sensorische Eingaben basierend auf Änderungen an sensorischen Eingaben aus der physischen Umgebung angepasst werden. Darüber hinaus können einige elektronische Systeme zum Darstellen von MR-Umgebungen den Ort und/oder die Ausrichtung in Bezug auf die physische Umgebung erkennen, um eine Interaktion zwischen realen Objekten (d. h. physischen Elementen aus der physischen Umgebung oder Darstellungen davon) und virtuellen Objekten zu ermöglichen. Zum Beispiel kann ein System Bewegungen erkennen und computererzeugte sensorische Eingaben entsprechend anpassen, sodass zum Beispiel ein virtueller Baum in Bezug auf eine physische Struktur fixiert erscheint.
Erweiterte Realität (AR) ist ein Beispiel von MR. Eine AR-Umgebung bezieht sich auf eine verbesserte Umgebung, in der ein oder mehrere virtuelle Objekte über einer physischen Umgebung (oder einer Darstellung davon) überlagert sind. Als ein Beispiel kann ein elektronisches System eine opake Anzeige und einen oder mehrere Bildsensoren zum Erfassen von Videodaten und/oder Bildern einer physischen Umgebung einschließen. Solche Videodaten und/oder Bilder können zum Beispiel Darstellungen der physischen Umgebung sein. Die Videodaten und/oder Bilder werden mit virtuellen Objekten kombiniert, wobei die Kombination dann auf der opaken Anzeige angezeigt wird. Die physische Umgebung kann von einer Person indirekt über die Bilder und/oder Videodaten der physischen Umgebung betrachtet werden. Die Person kann somit die über der physischen Umgebung überlagerten virtuellen Objekte beobachten. Wenn ein System Bilder einer physischen Umgebung erfasst und eine AR-Umgebung unter Verwendung der erfassten Bilder auf einer opaken Anzeige anzeigt, werden die angezeigten Bilder als Video-Pass-Through bezeichnet. Alternativ kann eine transparente oder halbtransparente Anzeige in einem elektronischen System zum Anzeigen einer AR-Umgebung eingeschlossen sein, sodass eine Person die physische Umgebung direkt durch die transparenten oder halbtransparenten Anzeigen betrachten kann. Virtuelle Objekte können auf der halbtransparenten oder transparenten Anzeige angezeigt werden, sodass eine Person virtuelle Objekte beobachtet, die über einer physischen Umgebung überlagert sind. In noch einem weiteren Beispiel kann ein Projektionssystem genutzt werden, um virtuelle Objekte auf eine physische Umgebung zu projizieren. Die virtuellen Objekte können zum Beispiel auf eine physische Oberfläche oder als ein Holograf projiziert werden, sodass eine Person die virtuellen Objekte beobachtet, die über der physischen Umgebung überlagert sind.
Eine AR-Umgebung kann sich auch auf eine verbesserte Umgebung beziehen, in der eine Darstellung einer physischen Umgebung durch computererzeugte sensorische Daten modifiziert wird. Als Beispiel kann mindestens ein Abschnitt einer Darstellung einer physischen Umgebung grafisch modifiziert (z. B. vergrößert) werden, sodass der modifizierte Abschnitt weiterhin für das ursprünglich aufgenommene Bild/die ursprünglich erfassten Bilder repräsentativ (wenngleich keine vollständig reproduzierte Version davon) ist. Alternativ können beim Bereitstellen eines Video-Pass-Through ein oder mehrere Sensorbilder modifiziert werden, um einen spezifischen Ansichtspunkt vorzugeben, der sich von einem Ansichtspunkt unterscheidet, der von dem/den Bildsensor(en) erfasst wird. Als weiteres Beispiel können Abschnitte einer Darstellung einer physischen Umgebung geändert werden, indem die Abschnitte grafisch verdeckt oder ausgeschlossen werden.
Erweiterte Virtualität (AV) ist ein weiteres Beispiel von MR. Eine AV-Umgebung bezieht sich auf eine verbesserte Umgebung, in der eine virtuelle oder computererzeugte Umgebung eine oder mehrere sensorische Eingaben aus einer physischen Umgebung integriert. Eine solche sensorische Eingabe/solche sensorischen Eingaben können Darstellungen von einer oder mehreren Eigenschaften einer physischen Umgebung einschließen. Ein virtuelles Objekt kann zum Beispiel eine Farbe einbeziehen, die einem physischen Element zugeordnet ist, das von einem Bildsensor/Bildsensoren erfasst wird. Alternativ kann ein virtuelles Objekt Eigenschaften annehmen, die zum Beispiel mit aktuellen Wetterbedingungen übereinstimmen, die einer physischen Umgebung entsprechen, wie Wetterbedingungen, die über Bilder, Online-Wetterinformationen und/oder wetterbezogene Sensoren identifiziert werden. Als weiteres Beispiel kann ein AR-Park virtuelle Strukturen, Pflanzen und Bäume einschließen, wenngleich Tiere innerhalb der AR-Park-Umgebung Merkmale einschließen können, die aus Bildern physischer Tiere genau reproduziert sind.
Verschiedene Systeme ermöglichen es Personen, ER-Umgebungen wahrzunehmen und/oder mit diesen zu interagieren. Zum Beispiel kann ein am Kopf befestigtes System einen oder mehrere Lautsprecher und eine opake Anzeige einschließen. Als weiteres Beispiel kann eine externe Anzeige (z. B. ein Smartphone) innerhalb eines am Kopf befestigten Systems einbezogen sein. Das am Kopf befestigte System kann Mikrofone zum Erfassen von Audiodaten einer physischen Umgebung und/oder Bildsensoren zum Erfassen von Bildern/Videodaten der physischen Umgebung einschließen. Eine transparente oder halbtransparente Anzeige kann auch in dem am Kopf befestigten System eingeschlossen sein. Die halbtransparente oder transparente Anzeige kann zum Beispiel ein Substrat einschließen, durch das Licht (repräsentativ für Bilder) auf die Augen einer Person gerichtet wird. Die Anzeige kann auch LEDs, OLEDs, Flüssigkristall auf Silizium, eine Laserabtastlichtquelle, einen digitalen Lichtprojektor oder eine beliebige Kombination davon einbeziehen. Das Substrat, durch das Licht übertragen wird, kann ein optischer Reflektor, ein holografisches Substrat, ein Lichtwellenleiter, ein optischer Kombinator oder eine beliebige Kombination davon sein. Die transparente oder halbtransparente Anzeige kann zum Beispiel selektiv zwischen einem transparenten/halbtransparenten Zustand und einem opaken Zustand wechseln. Als weiteres Beispiel kann das elektronische System ein projektionsbasiertes System sein. In einem projektionsbasierten System kann eine Netzhautprojektion verwendet werden, um Bilder auf die Netzhaut einer Person zu projizieren. Alternativ kann ein projektionsbasiertes System zum Beispiel auch virtuelle Objekte in eine physische Umgebung projizieren, wie zum Beispiel Objekte als Holograf oder auf eine physische Oberfläche projizieren. Andere Beispiele von ER-Systemen schließen Fenster, die zum Anzeigen von Grafiken konfiguriert sind, Kopfhörer, Ohrhörer, Lautsprecheranordnungen, Linsen, die zum Anzeigen von Grafiken konfiguriert sind, Blickfeldanzeigen, Kraftfahrzeugwindschutzscheiben, die zum Anzeigen von Grafiken konfiguriert sind, Eingabemechanismen (z. B. Steuerungen mit oder ohne haptische(r) Funktionalität), Desktop- oder Laptop-Computer, Tablets oder Smartphones ein.
Die vorliegende Offenbarung stellt Verfahren, Systeme und/oder Vorrichtungen zum Generieren einer semantischen Konstruktion einer physischen Umgebung bereit. Die semantische Konstruktion der physischen Umgebung kann dazu genutzt werden, eine der physischen Umgebung entsprechende ER-Umgebung zu generieren und darzustellen. Eine ER-Darstellung einer Person, eines Zieleffektors und/oder eines virtuellen intelligenten Agenten (VIA), die in der ER-Umgebung instanziiert sind, kann die Informationen verwenden, die in der semantischen Konstruktion enthalten sind, um mit einer ER-Darstellung eines physischen Elements (z. B. einem realen Objekt) zu interagieren. Somit ermöglicht die semantische Konstruktion der physischen Umgebung die Erkennung und Interaktion mit ER-Darstellungen physischer Elemente.
1A ist ein Blockdiagramm eines beispielhaften Betriebsumfeldes 2 gemäß einigen Implementierungen. Während entsprechende Merkmale gezeigt sind, wird der Fachmann aus der vorliegenden Offenbarung erkennen, dass verschiedene andere Merkmale der Kürze halber nicht dargestellt worden sind, um relevantere Gesichtspunkte der hierin offenbarten beispielhaften Implementierungen nicht zu verundeutlichen. Zu diesem Zweck schließt das Betriebsumfeld 2 als ein nicht einschränkendes Beispiel eine physische Umgebung 10, einen Benutzer 50 und eine elektronische Vorrichtung 100 ein.
In einigen Implementierungen schließt die physische Umgebung 10 verschiedene physische Elemente (z. B. reale Objekte) ein. In dem Beispiel von 1A schließt die physische Umgebung 10 einen Fußboden 12, eine Vorderwand 14, eine Seitenwand 16, eine Tür 18 mit einem Türgriff 20, ein Fernsehgerät 24, eine Couch 26, einen Kaffeetisch 28 und eine Fernbedienung 30 ein. In einigen Implementierungen befindet sich der Benutzer 50 innerhalb der physischen Umgebung 10.
In dem Beispiel von 1A erfasst der Benutzer 50 Umgebungsdaten 110, die der physischen Umgebung 10 entsprechen, über die elektronische Vorrichtung 100. Zum Beispiel schließt die elektronische Vorrichtung 100 in einigen Implementierungen eine Kamera (z. B. eine auf die Szene gerichtete Kamera, eine nach außen gerichtete Kamera) ein. In solchen Implementierungen erfasst die elektronische Vorrichtung 100 die Umgebungsdaten 110, die der physischen Umgebung 10 entsprechen, wenn sich die physische Umgebung 10 in einem Sichtfeld 102 der Kamera befindet. In einigen Implementierungen schließen die Umgebungsdaten 110 Bilder und/oder Videos der physischen Umgebung 10 ein.
In einigen Implementierungen schließt die elektronische Vorrichtung 100 einen Tiefensensor ein. In solchen Implementierungen schließen die Umgebungsdaten 110 Tiefeninformationen ein, die der physischen Umgebung 10 entsprechen. In einigen Implementierungen geben die Umgebungsdaten 110 relative Positionen verschiedener physischer Elemente innerhalb der physischen Umgebung 10 an. Zum Beispiel geben die Umgebungsdaten 110 an, dass die Couch 26 2 Fuß vom Kaffeetisch 28 entfernt positioniert ist. In einigen Implementierungen geben die Umgebungsdaten 110 Abmessungen der physischen Umgebung 10 und/oder der physischen Elemente an, die sich innerhalb der physischen Umgebung 10 befinden.
In dem Beispiel von 1A wird die elektronische Vorrichtung 100 vom Benutzer 50 gehalten. In einigen Implementierungen schließt die elektronische Vorrichtung 100 ein Smartphone, ein Tablet, einen Laptop oder dergleichen ein. In einigen Implementierungen schließt die elektronische Vorrichtung 100 eine tragbare Rechenvorrichtung ein, die vom Benutzer 50 getragen wird. In einigen Implementierungen schließt die elektronische Vorrichtung 100 eine am Kopf tragbare Vorrichtung (HMD) ein. In einigen Implementierungen ist die HMD so geformt, dass sie eine Aufnahme bildet, die eine Vorrichtung mit einer Anzeige aufnimmt (z. B. kann die Vorrichtung mit der Anzeige in die HMD geschoben werden, um als Anzeige für die HMD zu dienen). In einigen Implementierungen schließt die HMD eine integrierte Anzeige ein.
In verschiedenen Implementierungen bestimmt die elektronische Vorrichtung 100 ein semantisches Label für jedes physische Element in der physischen Umgebung 10. In einigen Implementierungen gibt das semantische Label für ein physisches Element einen Typ des physischen Elements an. In einigen Implementierungen schließt das semantische Label für ein physisches Element eine kurze Beschreibung des physischen Elements ein. In einigen Implementierungen gibt das semantische Label für ein physisches Element eine oder mehrere Eigenschaften des physischen Elements an. In einigen Implementierungen gibt das semantische Label für ein physisches Element eine oder mehrere physische Eigenschaften des physischen Elements an (z. B. Härte, Textur, Farbe usw.). In einigen Implementierungen zeigt das semantische Label für ein physisches Element eine Geruchseigenschaft des physischen Elements an.
Bezug nehmend auf 1B verwendet die elektronische Vorrichtung 100 in einigen Implementierungen die Umgebungsdaten 110, um dreidimensionale (3D) Punktwolken (im Folgenden der Kürze halber „Punktwolken“) für die physische Umgebung 10 zu generieren. Wie in 1B und 1C veranschaulicht, verwendet die elektronische Vorrichtung 100 die Punktwolken, um die physischen Elemente, die sich innerhalb der physischen Umgebung 10 befinden, zu erkennen und semantisch zu kennzeichnen. In einigen Implementierungen verwendet die elektronische Vorrichtung 100 die Punktwolken, um semantische Kennzeichnungen für die physischen Elemente zu generieren, die sich innerhalb der physischen Umgebung 10 befinden.
In verschiedenen Implementierungen schließen die Umgebungsdaten 110 ein Bild der physischen Umgebung 10 ein. In einigen Implementierungen verwendet die elektronische Vorrichtung 100 Verfahren, Vorrichtungen und/oder Systeme, die der Bildverarbeitung zugeordnet sind, um Darstellungen physischer Elemente zu erkennen und entsprechende Punktwolken zu generieren. In einigen Implementierungen verwendet die elektronische Vorrichtung 100 Merkmalsdetektoren, um Darstellungen der physischen Elemente zu erkennen und die entsprechenden Punktwolken zu generieren. Zum Beispiel verwendet die elektronische Vorrichtung 100 Kantendetektoren (z. B. Canny, Deriche, Differential, Sobel, Prewitt oder Roberts Cross), um Kanten physischer Elemente zu erkennen (z. B. um Kanten des Kaffeetischs 28 zu erkennen). In einigen Implementierungen verwendet die elektronische Vorrichtung 100 Eckdetektoren (z. B. Harris-Operator, Shi und Tomasi, Kurvenniveaukrümmung, Hessian-Merkmalsstärkemessungen, SUSAN und FAST), um Ecken physischer Elemente zu erkennen (z. B. um Ecken des Fernsehers 24 zu erkennen).
In dem Beispiel von 1B generiert die elektronische Vorrichtung 100 eine erste Punktwolke 118 basierend auf einem Teil der Umgebungsdaten 110, die der Tür 18 entsprechen. Die elektronische Vorrichtung 100 generiert eine zweite Punktwolke 120 basierend auf einem Teil der Umgebungsdaten 110, die dem Türgriff 20 entsprechen. Die elektronische Vorrichtung 100 generiert eine dritte Punktwolke 124 basierend auf einem Teil der Umgebungsdaten 110, die dem Fernseher 24 entsprechen. Die elektronische Vorrichtung 100 generiert eine vierte Punktwolke 126 basierend auf einem Teil der Umgebungsdaten 110, die der Couch 26 entsprechen. Die elektronische Vorrichtung 100 generiert eine fünfte Punktwolke 128 basierend auf einem Teil der Umgebungsdaten 110, die dem Kaffeetisch 28 entsprechen. Die elektronische Vorrichtung 100 generiert eine sechste Punktwolke 130 basierend auf einem Teil der Umgebungsdaten 110, die dem Fernsehen 30 entsprechen.
Bezug nehmend auf 1C generiert die elektronische Vorrichtung 100 in einigen Implementierungen entsprechende semantische Labels für die Punktwolken. In dem Beispiel von 1C generiert die elektronische Vorrichtung 100 ein erstes semantisches Label 168 für die erste Punktwolke 118, ein zweites semantisches Label 170 für die zweite Punktwolke 120, ein drittes semantisches Label 174 für die dritte Punktwolke 124, ein viertes semantisches Label 176 für die vierte Punktwolke 126, ein fünftes semantisches Label 178 für die fünfte Punktwolke 128 und ein sechstes semantisches Label 180 für die sechste Punktwolke 130.
In einigen Implementierungen geben die semantischen Labels Typen von physischen Elementen an, die entsprechenden Punktwolken darstellen. Zum Beispiel gibt das erste semantische Label 168 an, dass die erste Punktwolke 118 einer Tür entspricht (z. B. der Tür 18). Das zweite semantische Label 170 gibt an, dass die zweite Punktwolke 120 einem Türgriff entspricht (z. B. dem Türgriff 20). Das dritte semantische Label 174 gibt an, dass die dritte Punktwolke 124 einer Anzeigevorrichtung entspricht (z. B. dem Fernseher 24). Das vierte semantische Label 176 gibt an, dass die vierte Punktwolke 126 einem Sitzplatz entspricht (z. B. der Couch 26). Das fünfte semantische Label 178 gibt an, dass die fünfte Punktwolke 128 einem Tisch entspricht (z. B. dem Kaffeetisch 28). Das sechste semantische Label 180 gibt an, dass die sechste Punktwolke 150 einer Fernsteuerungsvorrichtung entspricht (z. B. der Fernseherfernbedienung 30).
In einigen Implementierungen schließen die semantischen Labels kurze Beschreibungen der physischen Elemente ein, die entsprechenden Punktwolken darstellen. Zum Beispiel gibt das erste semantische Label 168 an, dass die erste Punktwolke 118 einem physischen Element entspricht, welches das Eintreten in eine physische Umgebung oder das Verlassen derselben ermöglicht. Das zweite semantische Label 170 gibt an, dass die zweite Punktwolke 120 einem physischen Element zum Öffnen/Schließen einer Tür entspricht. Das dritte semantische Label 174 gibt an, dass die dritte Punktwolke 124 einem physischen Element zum Anzeigen von Inhalt entspricht. Das vierte semantische Label 176 gibt an, dass die vierte Punktwolke 126 einem physischen Element zum Sitzen oder Hinlegen entspricht. Das fünfte semantische Label 178 gibt an, dass die fünfte Punktwolke 128 einem physischen Element zum Platzieren anderer physischer Elemente entspricht. Das sechste semantische Label 180 gibt an, dass die sechste Punktwolke 150 einer Vorrichtung zum Fernsteuern einer Anzeigevorrichtung entspricht.
In einigen Implementierungen geben die semantischen Labels Eigenschaften physischer Elemente an, die entsprechenden Punktwolken darstellen. Zum Beispiel geben in einigen Implementierungen die semantischen Labels Texturen, Härte und/oder Farben der physischen Elemente an, die die Punktwolken darstellen. In einigen Implementierungen schließt die elektronische Vorrichtung 100 Geruchssensoren ein, die Gerüche erkennen. In solchen Implementierungen schließen die Umgebungsdaten 110 Geruchsdaten ein. In einigen solchen Implementierungen zeigen die semantischen Labels Gerüche physischer Elemente an, die Punktwolken darstellen.
In verschiedenen Implementierungen verwendet die elektronische Vorrichtung 100 ein neuronales Netz, um die semantischen Labels für die Punktwolken zu generieren. In einigen Implementierungen verwendet die elektronische Vorrichtung 100 ein rekurrentes neuronales Netzwerk (RNN) mit langem Kurzzeitspeicher (LSTM), um die semantischen Labels für die Punktwolken zu generieren. In einigen Implementierungen empfängt das neuronale Netzwerk die Umgebungsdaten 110 und/oder Informationen, die den Punktwolken entsprechen, als Eingabe und gibt die semantischen Etiketten für die Punktwolken aus. In einigen Implementierungen schließen die Informationen, die einer Punktwolke entsprechen, eine Anzahl von Punkten in der Punktwolke, eine Dichte der Punkte in der Punktwolke, eine Form der Punktwolke und/oder eine Position der Punktwolke relativ zu anderen Punktwolken ein.
In einigen Implementierungen schließt die elektronische Vorrichtung 100 einen Punkt-Labeler (z. B. einen Pixel-Labeler) ein, der jeden Punkt in einer Punktwolke bezeichnet. In einigen Implementierungen generiert der Punkt-Labeler Charakterisierungsvektoren (z. B. Punktcharakterisierungsvektoren oder Pixelcharakterisierungsvektoren) für Punkte in den Punktwolken. In einigen Implementierungen generiert die elektronische Vorrichtung 100 ein semantisches Label für eine Punktwolke als Reaktion darauf, dass die Punkte in der Punktwolke einen Objektkonfidenzschwellenwert erfüllen. In einigen Implementierungen ist der Objektkonfidenzschwellenwert erfüllt, wenn eine Schwellenwertanzahl von Charakterisierungsvektoren Label-Werte einschließt, die innerhalb eines Ähnlichkeitsgrads liegen. Zum Beispiel ist der Objektkonfidenzschwellenwert für die fünfte Punktwolke 128 erfüllt, wenn eine Schwellenwertanzahl (z. B. mehr als 75 %) der Charakterisierungsvektoren für die fünfte Punktwolke 128 ein primäres Label einschließt, das einen Tisch angibt (z. B. den Kaffeetisch 28).
In einigen Implementierungen schließt das Generieren der Punktwolken das eindeutige Unterscheiden der Punktwolken voneinander ein. In einigen Implementierungen unterscheidet die elektronische Vorrichtung 100 die Punktwolken basierend auf den Charakterisierungsvektoren der Punkte eindeutig. Zum Beispiel gruppiert die elektronische Vorrichtung 100 in einigen Implementierungen Punkte, die Charakterisierungsvektoren mit Werten aufweisen, die innerhalb eines Ähnlichkeitsgrads liegen.
Bezug nehmend auf 1D generiert die elektronische Vorrichtung 100 in einigen Implementierungen Punktwolken, die Begrenzungsflächen der physischen Umgebung 10 entsprechen. Zum Beispiel generiert die elektronische Vorrichtung 100, wie in 1D gezeigt, eine siebte Punktwolke 112, die dem Fußboden 12 der physischen Umgebung 10 entspricht. In dem Beispiel von 1D generiert die elektronische Vorrichtung 100 ein siebtes semantisches Label 162 für die siebte Punktwolke 112. Beispielsweise gibt das siebte semantische Label 162 an, dass die siebte Punktwolke 112 einem Fußboden (z. B. dem Fußboden 12) der physischen Umgebung 10 entspricht.
Wie in 1E gezeigt, generiert die elektronische Vorrichtung 100 in einigen Implementierungen eine semantische Konstruktion 1000 der physischen Umgebung 10 basierend auf den Umgebungsdaten 110. In verschiedenen Implementierungen schließt die semantische Konstruktion 1000 eine Darstellung einer Begrenzungsfläche der physischen Umgebung ein. Zum Beispiel schließt die semantische Konstruktion 1000 eine Darstellung 1200 des Fußbodens 12, eine Darstellung 1400 der Vorderwand 14 und eine Darstellung 1600 der Seitenwand 16 ein. In einigen Implementierungen schließt die semantische Konstruktion 1000 semantische Labels ein, die den Darstellungen der Begrenzungsflächen zugeordnet sind. Beispielsweise ist bei der semantischen Konstruktion 1000 das siebte semantische Label 162 der Darstellung 1200 des Fußbodens 12 zugeordnet. In einigen Implementierungen gibt das siebte semantische Label 162 Eigenschaften an, die der Darstellung 1200 des Fußbodens 12 zugeordnet sind (z. B. gibt das siebte semantische Label 162 an, dass der Fußboden 12 aus Keramikkacheln hergestellt ist).
In dem Beispiel von 1E schließt die semantische Konstruktion 1000 ein achtes semantisches Label 164 ein, das der Darstellung 1400 der Vorderwand 14 zugeordnet ist, und ein neuntes semantisches Label 166, das der Darstellung 1600 der Seitenwand 16 zugeordnet ist. In einigen Implementierungen gibt das achte semantische Label 164 Eigenschaften an, die der Darstellung 1400 der Vorderwand 14 zugeordnet sind (z. B. gibt das achte semantische Etikett 164 eine Farbtextur und/oder eine Farbfarbe der Vorderwand 14 an). In einigen Implementierungen gibt das neunte semantische Label 166 Eigenschaften an, die der Darstellung 1600 der Seitenwand 16 zugeordnet sind (z. B. gibt das neunte semantische Label 166 eine Reflektivität der Seitenwand 16 an).
In verschiedenen Implementierungen schließt die semantische Konstruktion 1000 Darstellungen physischer Elemente ein, die sich in der physischen Umgebung 10 befinden. Beispielsweise schließt die semantische Konstruktion 1000 eine Türdarstellung 1800 ein, die die Tür 18 in der physischen Umgebung 10 darstellt. Die semantische Konstruktion 1000 schließt eine Türgriffdarstellung 2000 ein, die den Türgriff 20 in der physischen Umgebung 10 darstellt. Die semantische Konstruktion 1000 schließt eine Fernsehdarstellung 2400 ein, die den Fernseher 24 in der physischen Umgebung 10 darstellt. Die semantische Konstruktion 1000 schließt eine Couch-Darstellung 2600 ein, die die Couch 26 in der physischen Umgebung 10 darstellt. Die semantische Konstruktion 1000 schließt eine Kaffeetischdarstellung 2800 ein, die den Kaffeetisch 28 in der physischen Umgebung 10 darstellt. Die semantische Konstruktion 1000 schließt eine Fernseh-Remote-Darstellung 3000 ein, die Fernseherfernbedienung 30 in der physischen Umgebung 10 darstellt.
In verschiedenen Implementierungen schließt die semantische Konstruktion 1000 semantische Labels für die physischen Elemente ein, die sich in der physischen Umgebung 10 befinden. Beispielsweise schließt die semantische Konstruktion 1000 das erste semantische Label 168 in Verbindung mit der Türdarstellung 1800 ein. In einigen Beispielen gibt das erste semantische Label 168 eine Farbe und/oder ein Material für die Türdarstellung 1800 an. In dem Beispiel von 1E schließt die semantische Konstruktion 1000 das zweite semantische Label 170 in Verbindung mit der Türgriffdarstellung 2000 ein. In einigen Beispielen gibt das zweite semantische Label 170 eine Farbe, eine Form, eine Größe und/oder ein Material für die Türgriffdarstellung 2000 an.
In dem Beispiel von 1E schließt die semantische Konstruktion 1000 das dritte semantische Label 174 in Verbindung mit der Fernsehdarstellung 2400 ein. In einigen Beispielen gibt das dritte semantische Label 174 eine Größe und/oder eine Dicke für die Fernsehdarstellung 2400 an. In dem Beispiel von 1E schließt die semantische Konstruktion 1000 das vierte semantische Label 176 in Verbindung mit der Couch-Darstellung 2600 ein. In einigen Beispielen gibt das vierte semantische Label 176 eine Länge, eine Anzahl von Sitzen, eine Farbe, eine Form und/oder ein Material für die Couchdarstellung 2600 an.
In dem Beispiel von 1E schließt die semantische Konstruktion 1000 das fünfte semantische Label 178 in Verbindung mit der Kaffeetischdarstellung 2800 ein. In einigen Beispielen gibt das fünfte semantische Etikett 178 eine Höhe und/oder ein Oberflächenmaterial für die Kaffeetischdarstellung 2800 an. In dem Beispiel von 1E schließt die semantische Konstruktion 1000 das sechste semantische Label 180 in Verbindung mit der ferngesteuerten Fernsehdarstellung 3000 ein. In einigen Beispielen gibt das sechste semantische Label 180 eine Anzahl von Schaltflächen, eine Größe der Schaltflächen und/oder eine Positionierung der Schaltflächen für die Fernseherfernsteuerungsdarstellung 3000 an.
Bezug nehmend auf 1F generiert die elektronische Vorrichtung 100 in verschiedenen Implementierungen eine Enhanced Reality-Umgebung (ER-Umgebung) 10C basierend auf der semantischen Konstruktion 1000 der physischen Umgebung 10. In verschiedenen Implementierungen schließt die ER-Umgebung 10C ER-Darstellungen physischer Elemente ein, die sich in der physischen Umgebung 10 befinden. Die elektronische Vorrichtung 100 generiert die ER-Darstellungen basierend auf den semantischen Labels, die in der semantischen Konstruktion 1000 der physischen Umgebung 10 enthalten sind. Somit liegen die ER-Darstellungen physischer Elemente und Begrenzungsflächen innerhalb eines Ähnlichkeitsgrades mit den physischen Elementen bzw. den Begrenzungsflächen. Darüber hinaus sind die ER-Darstellungen der physischen Elemente innerhalb eines Ähnlichkeitsgrades zu den physischen Elementen in der physischen Umgebung 10 betreibbar.
In dem Beispiel von 1F schließt die ER-Umgebung 10C einen ER-Fußboden 12C, der den Fußboden 12 der physischen Umgebung 10 darstellt, eine ER-Vorderwand 14C, die die Vorderwand 14 darstellt, eine ER-Seitenwand 16C, die die Seitenwand 16 darstellt, eine ER-Tür 18C, die die Tür 18 darstellt, einen ER-Türgriff 20C, der den Türgriff 20 darstellt, einen ER-Fernseher 24C, der den Fernseher 24 darstellt, eine ER-Couch 26C, die die Couch 26 darstellt, einen ER-Kaffeetisch 28C, der den Kaffeetisch 28 darstellt, und eine ER-Fernseherfernbedienung 30C ein, die die Fernseherfernbedienung 30 darstellt.
In dem Beispiel von 1F schließt die ER-Umgebung 10C eine erste ER-Person 40C und eine zweite ER-Person 42C ein. In einigen Implementierungen sind die erste ER-Person 40C und/oder die zweite ER-Person 42C ER-Darstellungen von Personen in einer physischen Umgebung. In einigen Implementierungen sind die erste ER-Person 40C und/oder die zweite ER-Person 42C ER-Darstellungen von fiktiven Personen aus fiktiven Materialien (z. B. Filme, Bücher, Spiele usw.). In einigen Implementierungen sind die erste ER-Person 40C und/oder die zweite ER-Person 42C ER-Darstellungen virtueller intelligenter Agenten (VIAs) und/oder Zieleffektoren.
In verschiedenen Implementierungen führen die erste ER-Person 40C und/oder die zweite ER-Person 42C Aktionen innerhalb der ER-Umgebung 10C durch, die das Erkennen und/oder Interagieren mit verschiedenen ER-Objekten in der ER-Umgebung 10C einschließen. In dem Beispiel von 1F manipuliert die zweite ER-Person 42C den ER-Türgriff 20C, um die ER-Tür 18C zu öffnen/zu schließen. In dem Beispiel von 1F sitzt die erste ER-Person 40C auf der ER-Couch 26C. Die erste ER-Person 40C und/oder die zweite ER-Person 42C sind in der Lage, die verschiedenen ER-Objekte in der ER-Umgebung 10C zu erkennen und/oder mit diesen zu interagieren, da den ER-Objekten dieselben Eigenschaften wie den entsprechenden physischen Elementen zugeordnet sind. Den ER-Objekten sind die gleichen Eigenschaften wie den entsprechenden physischen Elementen zugeordnet, da die elektronische Vorrichtung 100 die semantischen Labels in der semantischen Konstruktion 1000 zum Generieren der ER-Umgebung 10C verwendet hat.
Bezug nehmend auf 1G sind in einigen Implementierungen einige physische Elemente in der physischen Umgebung 10 einer optischen maschinenlesbaren Darstellung von Daten zugeordnet. In einigen Implementierungen schließt die optische maschinenlesbare Darstellung von Daten einen Strichcode ein. In einigen Implementierungen schließt der Strichcode einen eindimensionalen (1D) Strichcode ein. In einigen Implementierungen schließt der Strichcode einen zweidimensionalen (2D) Strichcode (z. B. einen QR-Code) ein. Wie in 1G gezeigt, ist ein erster Strichcode 27 an der Couch 26 und ein zweiter Strichcode 29 am Kaffeetisch 28 angebracht. Der erste Strichcode 27 schließt Identifizierungsinformationen für die Couch 26 (z. B. eine Modellnummer, einen Hersteller, eine Größe und/oder eine Farbe der Couch 26) ein. In ähnlicher Weise schließt der zweite Strichcode 29 Identifizierungsinformationen für den Kaffeetisch 28 ein (z. B. ein Material, eine Farbe, Abmessungen, einen Hersteller des Kaffeetischs 28). In einigen Implementierungen sind die Strichcodes von Herstellern und/oder Händlern der physischen Elemente an den physischen Elementen angebracht (z. B. der erste Strichcode 27 wird von dem Hersteller der Couch 26 oder einem Händler der Couch 26 an der Couch 26 angebracht).
In dem Beispiel von 1G generiert die elektronische Vorrichtung 100 ein semantisches Label für die Couch 26 (z. B. das vierte semantische Label 176, das in 1C gezeigt ist) basierend auf dem ersten Strichcode 27. Auf diese Weise unterlässt die elektronische Vorrichtung 100 die eindeutige Unterscheidung der vierten Punktwolke 126 und das Generieren des vierten semantischen Labels 176 basierend auf der vierten Punktwolke 126. In einigen Implementierungen ist das Generieren semantischer Labels basierend auf Strichcodes weniger ressourcenintensiv als das Generieren semantischer Labels basierend auf Punktwolken. Somit reduziert das Generieren des semantischen Labels für die Couch 26 basierend auf dem ersten Strichcode 27 eine Menge an Rechenressourcen und/oder eine Menge an Zeit, die erforderlich ist, um das semantische Label zu generieren. In einigen Implementierungen generiert die elektronische Vorrichtung 100 ein semantisches Label (z. B. das fünfte semantische Label 178, das in 1C gezeigt ist) für den Kaffeetisch 28 basierend auf dem zweiten Strichcode 29.
In einigen Implementierungen stellt (z. B. zeigt) eine (nicht gezeigte) am Kopf tragbare Vorrichtung (HMD), die vom Benutzer 50 getragen wird, die ER-Umgebung 10C gemäß verschiedenen Implementierungen dar. In einigen Implementierungen schließt die HMD eine integrierte Anzeige (z. B. eine eingebaute Anzeige) ein, welche die ER-Umgebung 10C anzeigt. In einigen Implementierungen schließt die HMD ein am Kopf tragbares Gehäuse ein. In verschiedenen Implementierungen schließt das am Kopf tragbare Gehäuse einen Befestigungsbereich ein, an dem eine andere Vorrichtung mit einer Anzeige befestigt werden kann. Zum Beispiel kann die elektronische Vorrichtung 100 in einigen Implementierungen an dem am Kopf tragbaren Gehäuse angebracht sein. In verschiedenen Implementierungen ist das am Kopf tragbare Gehäuse geformt, um eine Anschlussbuchse zum Aufnehmen einer anderen Vorrichtung, die eine Anzeige (z. B. die elektronische Vorrichtung 100) einschließt, zu bilden. Zum Beispiel gleitet/schnappt die elektronische Vorrichtung 100 in einigen Implementierungen in das am Kopf tragbare Gehäuse oder ist auf andere Weise daran befestigt. In einigen Implementierungen präsentiert die Anzeige der an dem am Kopf tragbaren Gehäuse angebrachten Vorrichtung die ER-Umgebung 10C (z. B. durch Anzeigen).
2 veranschaulicht ein Blockdiagramm einer Vorrichtung 200. In einigen Implementierungen implementiert die Vorrichtung 200 die in 1A-1G gezeigte elektronische Vorrichtung 100. In verschiedenen Implementierungen generiert die Vorrichtung 200 eine semantische Konstruktion 252 einer physischen Umgebung (z. B. die semantische Konstruktion 1000 der physischen Umgebung 10). Wie in 2 veranschaulicht, schließt die Vorrichtung 200 in einigen Implementierungen einen Datenempfänger 210, einen Bestimmer für Begrenzungsflächen 220, einen Detektor für physische Elemente 230, einen Bestimmer für semantische Labels 240 und einen Generator für semantische Konstruktionen 250 ein.
In verschiedenen Implementierungen erhält der Datenempfänger 210 Umgebungsdaten 212, die einer physischen Umgebung entsprechen (z. B. die in 1A-1E gezeigten Umgebungsdaten 110). In einigen Implementierungen erhält der Datenempfänger 210 die Umgebungsdaten 212 von einer Kamera in Form eines Bildes und/oder eines Videos. In einigen Implementierungen erhält der Datenempfänger 210 die Umgebungsdaten 212 von einem Tiefensensor in Form von Tiefendaten. In einigen Implementierungen erhält der Datenempfänger 210 die Umgebungsdaten 212 durch Scannen einer optischen maschinenlesbaren Darstellung von Daten (z. B. eines Strichcodes, zum Beispiel des ersten Strichcodes 27 für die Couch 26 und/oder des zweiten Strichcodes 29 für den Kaffeetisch 28, gezeigt in 1G).
In verschiedenen Implementierungen bestimmt der Bestimmer für Begrenzungsflächen 220 eine oder mehrere Begrenzungsflächen der physischen Umgebung basierend auf den Umgebungsdaten 212. In einigen Implementierungen identifiziert der Bestimmer für Begrenzungsflächen 220 physische Oberflächen in der physischen Umgebung (z. B. ein Fußboden, Wände und/oder eine Decke). In einigen Implementierungen identifiziert der Bestimmer für Begrenzungsflächen 220 eine Begrenzung, die der physischen Umgebung zugeordnet ist. In einigen Implementierungen erhält der Bestimmer für Begrenzungsflächen 220 Begrenzungsinformationen 226 aus einem Begrenzungsdatenspeicher 224. In einigen Implementierungen geben die Begrenzungsinformationen 226 Grundstückslinien für eine Landparzelle an. In solchen Implementierungen bestimmt der Bestimmer für Begrenzungsflächen 220 eine Begrenzungsfläche, die entlang der durch die Begrenzungsinformationen 226 angegebenen Grundstückslinie verläuft. In einigen Implementierungen verwendet der Bestimmer für Begrenzungsflächen 220 Punktwolken, um die Begrenzungsflächen zu bestimmen (z. B. unter Verwenden der siebten Punktwolke 112, die in 1D gezeigt ist, um das Fußboden 12 der physischen Umgebung 10 zu bestimmen). Der Bestimmer für Begrenzungsflächen 220 generiert Begrenzungsflächeninformationen 222 und sendet die Begrenzungsflächeninformationen 222 an den Bestimmer für semantische Labels 240.
In verschiedenen Implementierungen erkennt der Detektor für physische Elemente 230 physische Elemente, die sich innerhalb der physischen Umgebung befinden, basierend auf den Umgebungsdaten 212. In einigen Implementierungen verwendet der Detektor für physische Elemente 230 Punktwolken, um die physischen Elemente in der physischen Umgebung zu erkennen (z. B. verwendet die erste Punktwolke 118, die in 1C gezeigt ist, um die Tür 18 in der physischen Umgebung 10 zu erkennen). Der Detektor für physische Elemente 230 generiert Informationen für physische Elemente 232 und sendet die Informationen für physische Element 232 an den Bestimmer für semantische Labels 240.
In einigen Implementierungen führt der Detektor für physische Elemente 230 eine Instanzsegmentierung an den Umgebungsdaten 212 durch, um die physischen Elemente zu erkennen, die sich innerhalb der physischen Umgebung befinden. Zu diesem Zweck schließt der Detektor für physische Elemente 230 in einigen Implementierungen einen Instanzsegmentierer ein, der die Instanzsegmentierung an den Umgebungsdaten 212 durchführt und die Informationen über physische Elemente 232 generiert.
In verschiedenen Implementierungen verwenden der Bestimmer für Begrenzungsflächen 220 und/oder der Detektor für physische Elemente 230 ein neuronales Netz, um die Begrenzungsfläche(n) zu bestimmen bzw. die physischen Elemente zu erkennen. In einigen Implementierungen empfängt das neuronale Netzwerk die Umgebungsdaten 212 und/oder die Punktwolken als Eingabe(n) und gibt die Begrenzungsflächeninformationen 222 und/oder die Informationen über physische Elemente 232 aus.
In verschiedenen Implementierungen bestimmt der Bestimmer für semantische Labels 240 semantische Labels 242 für die physischen Elemente und/oder die Begrenzungsflächen, die sich in der physischen Umgebung befinden. In einigen Implementierungen bestimmt der Bestimmer für semantische Labels 240 die semantischen Labels 242 basierend auf den Begrenzungsflächeninformationen 222 und/oder den Informationen über physische Elemente 232, die von dem Bestimmer für Begrenzungsflächen 220 bzw. dem Detektor für physische Elemente 230 generiert werden.
In einigen Implementierungen führt der Bestimmer für semantische Labels 240 eine semantische Segmentierung an den Umgebungsdaten 212 durch, um die semantischen Labels 242 zu bestimmen. Dazu schließt der Bestimmer für semantische Labels 240 in einigen Implementierungen einen Semantiksegmentierer ein, der die Semantiksegmentierung an den Umgebungsdaten 212 durchführt und die semantischen Labels 242 basierend auf der Semantiksegmentierung generiert.
In einigen Implementierungen schließt der Bestimmer für semantische Labels 240 ein neuronales Netz ein, das die Begrenzungsflächeninformationen 222 und/oder die physischen Elementinformationen 232 als Eingabe(n) erhält und die semantischen Labels 242 für die Begrenzungsfläche(n) und/oder die physischen Elemente, die sich in der physischen Umgebung befinden, ausgibt.
In verschiedenen Implementierungen generiert der Generator für semantische Konstruktionen 250 die semantische Konstruktion 250 der physischen Umgebung basierend auf den Begrenzungsflächeninformationen 222, den physischen Elementinformationen 232 und/oder den semantischen Labels 242. In einigen Implementierungen schließt die semantische Konstruktion 252 Begrenzungsflächendarstellungen 254 (z. B. die Darstellung 1200 des in 1E gezeigten Fußbodens 12), Darstellungen von physischen Elementen 256 (z. B. die Couchdarstellung 2600 und die Kaffeetischdarstellung 2800, die in 1E gezeigt sind) und die semantischen Labels 242 (z. B. das vierte semantische Label 176, das der Couchdarstellung 2600 zugeordnet ist, und das fünfte semantische Label 178, das der Kaffeetischdarstellung 3000 zugeordnet ist) ein.
3A ist eine Flussdiagrammdarstellung eines Verfahrens 300 zum Generieren einer semantischen Konstruktion einer physischen Umgebung. In verschiedenen Implementierungen wird das Verfahren 300 von einer Vorrichtung mit einem nicht-transitorischen Speicher und einem oder mehreren Prozessoren durchgeführt, die mit dem nicht-transitorischen Speicher gekoppelt sind (z. B. der in 1A-1G gezeigten elektronischen Vorrichtung 100 und/oder der in 2 gezeigten Vorrichtung 200). In einigen Implementierungen wird das Verfahren 300 durch Verarbeitungslogik, einschließlich Hardware, Firmware, Software oder einer Kombination davon, durchgeführt. In einigen Implementierungen wird das Verfahren 300 von einem Prozessor durchgeführt, der einen Code ausführt, der in einem nicht-transitorischen computerlesbaren Medium (z. B. einem Speicher) gespeichert ist.
Wie durch Block 310 dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Erhalten von Umgebungsdaten ein, die der physischen Umgebung entsprechen. Zum Beispiel schließt das Verfahren 300 das Erhalten der in 1A-1E gezeigten Umgebungsdaten 110 und/oder der in 2 gezeigten Umgebungsdaten 212 ein. In einigen Implementierungen schließt das Verfahren 300 das Empfangen der Umgebungsdaten an der Vorrichtung ein. In einigen Implementierungen schließt das Verfahren 300 das Abrufen der Umgebungsdaten aus einem nicht-transitorischen Speicher ein. In einigen Implementierungen schließt das Verfahren 300 das Erkennen der Umgebungsdaten ein.
Wie durch Block 320 dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Bestimmen, basierend auf den Umgebungsdaten, einer Begrenzungsfläche der physischen Umgebung ein. In einigen Implementierungen schließt das Verfahren 300 das Bestimmen einer physischen Oberfläche (z. B. einer realen Oberfläche) der physischen Umgebung ein. Zum Beispiel schließt das Verfahren 300 in einigen Implementierungen das Bestimmen eines Fußbodens (z. B. des in 1A gezeigten Fußbodens 12), einer Decke und/oder von Wänden der physischen Einheit (z. B. der Vorderwand 14 und/oder der Seitenwand 16, die in 1A gezeigt sind) ein.
Wie durch Block 330 dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Erkennen eines physischen Elements, das sich innerhalb der physischen Umgebung befindet, basierend auf den Umgebungsdaten ein. In einigen Implementierungen schließt das Verfahren 300 das Identifizieren der realen Objekte, die sich in der physischen Umgebung befinden, basierend auf den Umgebungsdaten ein. Zum Beispiel erkennt die elektronische Vorrichtung 100 den Fernseher 24, die Couch 26, den Kaffeetisch 28 und die Fernseherfernbedienung 30, die sich in der in 1A gezeigten physischen Umgebung 10 befinden.
Wie durch Block 340 dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Bestimmen eines semantischen Labels für das physische Element basierend auf mindestens einem Teil der Umgebungsdaten ein, die dem physischen Element entsprechen. Zum Beispiel bestimmt die elektronische Vorrichtung 100 das erste semantische Label 168, das zweite semantische Label 170 usw., die in 1C gezeigt sind. In einigen Implementierungen schließt das Verfahren 300 das Generieren des semantischen Labels ein, um einen Typ des physischen Elements anzugeben.
Wie durch Block 350 dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Generieren einer semantischen Konstruktion der physischen Umgebung basierend auf den Umgebungsdaten ein. Zum Beispiel, wie in 1E gezeigt, generiert die elektronische Vorrichtung 100 die semantische Konstruktion 1000 basierend auf den Umgebungsdaten 110. In einigen Implementierungen schließt die semantische Konstruktion eine Darstellung der Begrenzungsfläche ein. Zum Beispiel schließt, wie in 1E gezeigt, die semantische Konstruktion 1000 eine Darstellung 1200 des Fußbodens 12 ein. In einigen Implementierungen schließt die semantische Konstruktion eine Darstellung des physischen Elements ein. Zum Beispiel schließt, wie in 1E gezeigt, die semantische Konstruktion 1000 eine Fernseherdarstellung 2400 für den Fernseher 24 ein. In einigen Implementierungen schließt die semantische Konstruktion das semantische Label für das physische Element ein. Zum Beispiel schließt, wie in 1E gezeigt, die semantische Konstruktion 1000 das vierte semantische Label 176 in Verbindung mit der Couchdarstellung 2600 ein.
Bezug nehmend auf 3B, wie durch Block 310a dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Erhalten von Tiefeninformationen ein, die von einem Tiefensensor erfasst werden. Zum Beispiel schließt in einigen Implementierungen die in 1A gezeigte elektronische Vorrichtung 100 einen Tiefensensor ein, und die Umgebungsdaten 110 schließen Tiefeninformationen ein.
Wie durch Block 310b dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Erhalten eines Bildes oder eines Videos ein, das von einem Bildsensor (z. B. einer Kamera) erfasst wird. Zum Beispiel schließt in einigen Implementierungen die in 1A gezeigte elektronische Vorrichtung 100 einen Bildsensor ein, und die Umgebungsdaten 110 schließen ein Bild oder ein Video der physischen Umgebung 10 ein.
Wie durch Block 310c dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Scannen einer optischen maschinenlesbaren Darstellung von Daten (z. B. eines Strichcodes) ein. Zum Beispiel scannt, wie in 1G gezeigt, die elektronische Vorrichtung 100 den ersten Strichcode 27 für die Couch 26 und den zweiten Strichcode 29 für den Kaffeetisch 28.
Wie durch Block 320a dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Erkennen einer physischen Oberfläche in der physischen Umgebung ein. In einigen Implementierungen schließt das Verfahren 300 das Erkennen eines Fußbodens, einer Wand und/oder einer Decke der physischen Umgebung ein. Zum Beispiel, wie in 1D gezeigt, erkennt die elektronische Vorrichtung 100 den Fußboden 12 der physischen Umgebung 10.
Wie durch Block 320b dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Identifizieren einer Begrenzung, die der physischen Umgebung zugeordnet ist, und das Darstellen der Begrenzung mit einer Darstellung einer Oberfläche in der semantischen Konstruktion der physischen Umgebung ein. Wie durch Block 320c dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Identifizieren einer Grundstückslinie ein, die der physischen Umgebung zugeordnet ist, basierend auf Informationen, die in einem Datenspeicher gespeichert sind. Zum Beispiel erhält, wie in 2 gezeigt, der Bestimmer für Begrenzungsflächen 220 Begrenzungsinformationen 226 (z. B. einen Ort einer Grundstückslinie) aus dem Begrenzungsdatenspeicher 224 (z. B. Ländereigenschaftsdatensätze). Wie durch Block 320d dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Hinzufügen einer Darstellung einer Wand in der semantischen Konstruktion entlang der Begrenzung ein.
Wie durch Block 330a dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Durchführen einer Instanzsegmentierung an den Umgebungsdaten ein, um das physische Element zu erkennen. Zum Beispiel führt der in 2 gezeigte Detektor für physische Elemente 230 eine Instanzsegmentierung an den Umgebungsdaten 212 durch, um die Informationen über physische Elemente 232 zu generieren.
Wie durch Block 330b dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Identifizieren einer optischen maschinenlesbaren Darstellung von Daten ein, die dem physischen Element zugeordnet sind. Zum Beispiel identifiziert, wie in 1G gezeigt, die elektronische Vorrichtung 100 den ersten Strichcode 27, der an der Couch 26 angebracht ist, und den zweiten Strichcode 29, der am Kaffeetisch 28 angebracht ist.
Bezug nehmend auf 3C, wie durch Block 340a dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Durchführen einer semantischen Segmentierung an mindestens einem Teil der Umgebungsdaten ein, die dem physischen Element entsprechen, um das semantische Label für das physische Element zu bestimmen. Beispielsweise führt der Bestimmer für semantische Labels 240 eine semantische Segmentierung der Umgebungsdaten 212 durch, um die semantischen Labels 242 zu generieren.
Wie durch Block 340b dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Identifizieren einer oder mehrerer Eigenschaften, die dem physischen Element zugeordnet sind, und das Auswählen des semantischen Labels basierend auf der einen oder den mehreren Eigenschaften, die dem physischen Element zugeordnet sind, ein. Wenn zum Beispiel erkannt wird, dass das physische Element eine Oberfläche und vier Stäbe aufweist, die sich von der Oberfläche erstrecken, ist das physische Element somit ein Tisch.
Wie durch Block 340c dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Durchführen einer Bildsuche basierend auf einem Teil der Umgebungsdaten, die dem physischen Element entsprechen, und das Empfangen des semantischen Labels als Suchergebnis ein. Zum Beispiel schließt das Verfahren 300 das Durchführen einer Bildsuche an einem Teil der Umgebungsdaten 110, der der ersten Punktwolke 118 entspricht, und das Empfangen eines Suchergebnisses ein, das angibt, dass der Teil der Umgebungsdaten 110, der der ersten Punktwolke 118 entspricht, eine Tür darstellt (z. B. die Tür 18).
Wie durch Block 340d dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Generieren einer Punktwolke, die eine Vielzahl von Punkten einschließt, das Erhalten jeweiliger Charakterisierungsvektoren für die Vielzahl von Punkten und das Generieren des semantischen Labels für die Punktwolke als Reaktion darauf, dass die Vielzahl von Punkten einen Objektkonfidenzschwellenwert erfüllt, ein. In einigen Implementierungen erfüllen die Vielzahl von Punkten den Objektkonfidenzschwellenwert, wenn eine Schwellenwertanzahl von Charakterisierungsvektoren Label-Werte einschließt, die innerhalb eines Ähnlichkeitsgrads liegen. Zum Beispiel generiert die elektronische Vorrichtung 100, wie in 1C gezeigt, die Punktwolken 118, 120, 124, 126, 128 und 130 und wählt entsprechende semantische Labels 168, 170, 174, 176, 178 und 180 aus.
Wie durch Block 350a dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Bestimmen einer Platzierung der Darstellung des physischen Elements in Bezug auf die Darstellung der Begrenzungsfläche ein. Zum Beispiel bestimmt die elektronische Vorrichtung 100 die Platzierung der Couchdarstellung 2600 auf der Darstellung 1200 des Fußbodens innerhalb der semantischen Konstruktion 1000, die in 1E gezeigt ist. In einigen Implementierungen schließt das Verfahren 300 das Bestimmen einer Ausrichtung der Darstellung des physischen Elements innerhalb der semantischen Konstruktion ein. Zum Beispiel bestimmt die elektronische Vorrichtung 100, dass die Couch-Darstellung 2600 der Fernseherdarstellung 2400 innerhalb der in 1E gezeigten semantischen Konstruktion 1000 zugewandt ist.
Wie durch Block 350b dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Generieren, basierend auf der semantischen Konstruktion der physischen Umgebung, einer ER-Umgebung ein, die der physischen Umgebung entspricht. Zum Beispiel generiert die elektronische Vorrichtung 100 die in 1F gezeigte ER-Umgebung 10C und zeigt diese an. In einigen Implementierungen schließt die ER-Umgebung ein ER-Objekt ein, das physische Element darstellt. Zum Beispiel schließt die ER-Umgebung 10C eine ER-Couch 26C ein, die eine ER-Darstellung der Couch 26 in der physischen Umgebung 10 ist.
Wie durch Block 350c dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Bereitstellen der semantischen Konstruktion der physischen Umgebung für einen virtuellen intelligenten Agenten (VIA) ein, der Aktionen für ein ER-Objekt generiert, das den VIA darstellt. Zum Beispiel wird in einigen Implementierungen die erste ER Person 40C, die in 1F gezeigt ist, vom VIA gesteuert (z. B. stellt die erste ER-Person 40C den VIA dar). In solchen Implementierungen generiert der VIA Aktionen für die erste ER-Person 40C, die das Erkennen und Interagieren mit ER-Darstellungen physischer Elemente einschließen (z. B. sitzt die erste ER-Person 40C auf der ER-Couch 26C).
Wie durch Block 350d dargestellt, schließt das Verfahren 300 in einigen Implementierungen das Bereitstellen der semantischen Konstruktion der physischen Umgebung für eine Zieleffektor-Engine ein, die Aktionen für ein ER-Objekt generiert, das einen Zieleffektor darstellt, der in der ER-Umgebung instanziiert ist. Zum Beispiel ist in einigen Implementierungen die zweite ER Person 42C eine ER-Darstellung des Zieleffektors. In solchen Implementierungen generiert die Zieleffektor-Engine Aktionen für die zweite ER-Person 42C, die das Erkennen und Interagieren mit ER-Darstellungen physischer Elemente einschließen (z. B. betätigt die zweite ER-Person 42C den ER-Türgriff 20C, um die ER-Tür 18C zu öffnen).
4 ist ein Blockdiagramm einer Vorrichtung 400 (z. B. die in 1A gezeigte elektronische Vorrichtung 100 und/oder die in 2 gezeigte Vorrichtung 200) gemäß einigen Implementierungen. Während bestimmte Merkmale veranschaulicht sind, werden Fachleute aus der vorliegenden Offenbarung erkennen, dass verschiedene andere Merkmale der Kürze halber nicht veranschaulicht worden sind, um relevantere Gesichtspunkte der hierin offenbarten Implementierungen nicht zu verdecken. Zu diesem Zweck schließt die Vorrichtung 400 als ein nicht einschränkendes Beispiel in einigen Implementierungen eine oder mehrere Verarbeitungseinheiten (CPU) 401, eine Netzwerkschnittstelle 402, eine Programmierschnittstelle 403, einen Speicher 404, Eingabe-/Ausgabe-Sensoren (E/A-Sensoren) 405 und einen oder mehrere Kommunikationsbusse 406 zum Verbinden dieser und verschiedener anderer Komponenten ein.
In einigen Implementierungen ist die Netzwerkschnittstelle 402 bereitgestellt, um unter anderem einen Metadatentunnel zwischen einem Cloud-gehosteten Netzwerkmanagementsystem und mindestens einem privaten Netzwerk einschließlich einer oder mehrerer konformer Vorrichtungen herzustellen und aufrechtzuerhalten. In einigen Implementierungen schließen der eine oder die mehreren Kommunikationsbusse 406 Schaltlogik ein, welche die Kommunikationen zwischen Systemkomponenten miteinander verbindet und steuert. Der Speicher 404 schließt einen Hochgeschwindigkeitsspeicher mit wahlfreiem Zugriff, wie DRAM, SRAM, DDR-RAM oder andere Festspeichervorrichtungen, ein, und kann einen nicht-transitorischen Speicher, wie eine oder mehrere Magnetplattenspeichervorrichtungen, optische Plattenspeichervorrichtungen, Flash-Speichervorrichtungen oder andere nicht-transitorische Festspeichervorrichtungen, einschließen. Der Speicher 404 schließt optional eine oder mehrere Speichervorrichtungen ein, die sich von der einen oder den mehreren Verarbeitungseinheiten 401 entfernt befinden. Der Speicher 404 umfasst ein nicht-transitorisches computerlesbares Speichermedium.
In einigen Implementierungen schließt der E/A-Sensor 405 einen Bildsensor (z. B. eine Kamera) ein, der Bilder und/oder Videos einer physischen Umgebung erfasst. In einigen Implementierungen schließt der E/A-Sensor 405 einen Tiefensensor ein, der Tiefendaten für eine physische Umgebung erfasst.
In einigen Implementierungen speichert der Speicher 404 oder das nicht-transitorische computerlesbare Speichermedium des Speichers 404 die folgenden Programme, Module und Datenstrukturen oder eine Teilmenge davon, einschließlich eines optionalen Betriebssystems 408, des Datenempfängers 210, des Bestimmers für Begrenzungsflächen 220, des Detektors für physische Elemente 230, des Bestimmers für semantische Labels 240, des Generators für semantische Konstruktionen 250. Wie hierin beschrieben, erhält der Datenempfänger 210 in verschiedenen Implementierungen Umgebungsdaten, die einer physischen Umgebung entsprechen. Zu diesem Zweck schließt der Datenempfänger 210 Anweisungen 210a, Heuristiken und Metadaten 210b ein. Wie hierin beschrieben, bestimmt der Bestimmer für Begrenzungsflächen 220 in verschiedenen Implementierungen eine Begrenzungsfläche der physischen Umgebung. Zu diesem Zweck schließt der Bestimmer für Begrenzungsflächen 220 Anweisungen 220a und Heuristiken und Metadaten 220b ein. Wie hierin beschrieben, erkennt der Detektor für physische Elemente 230 in verschiedenen Implementierungen physische Elemente, die sich innerhalb der physischen Umgebung befinden, basierend auf den Umgebungsdaten. Zu diesem Zweck schließt der Detektor für physische Elemente 230 Anweisungen 230a und Heuristiken und Metadaten 230b ein. Wie hierin beschrieben, bestimmt der Bestimmer für semantische Labels 240 in verschiedenen Implementierungen ein semantisches Label für das physische Element. Zu diesem Zweck schließt der Bestimmer für semantische Labels 240 Anweisungen 240a und Heuristiken und Metadaten 240b ein. Wie hierin beschrieben, generiert der Generator für semantische Konstruktionen 250 in verschiedenen Implementierungen eine semantische Konstruktion der physischen Umgebung basierend auf den Umgebungsdaten. Zu diesem Zweck schließt der Generator für semantische Konstruktionen 250 Anweisungen 250a und Heuristiken und Metadaten 250b ein.
In verschiedenen Implementierungen führt eine ER-Darstellung eines virtuellen intelligenten Agenten (VIA) eine Aktion durch, um ein Ziel des VIA zu erfüllen (z. B. abzuschließen oder zu erreichen). In einigen Implementierungen erhält die VIA das Ziel von einem menschlichen Bediener (z. B. einem Benutzer einer Vorrichtung). In einigen Implementierungen erhält eine ER-Darstellung des VIA (z. B. ein ER-Objekt, das den VIA darstellt) das Ziel von einer ER-Darstellung des menschlichen Bedieners. Beispielsweise weist die ER-Darstellung des menschlichen Bedieners die ER-Darstellung des VIA an, eine Aktion in der ER-Umgebung durchzuführen. Insofern führt der VIA in einigen Implementierungen die Aktion durch, indem er die ER-Darstellung des VIA in der ER-Umgebung manipuliert. In einigen Implementierungen ist die ER-Darstellung des VIA in der Lage, ER-Aktionen durchzuführen, die die ER-Darstellung des menschlichen Bedieners nicht durchführen können. In einigen Implementierungen führt die ER-Darstellung des VIA ER-Aktionen basierend auf Informationen durch, die der VIA von einer physischen Umgebung erhält. Beispielsweise nuliert die ER-Darstellung des VIA die ER-Darstellung des menschlichen Bedieners, wenn der VIA ein Klingeln einer Türklingel in der physischen Umgebung erkennt.
In verschiedenen Implementierungen führt eine ER-Darstellung eines Zieleffektors eine Aktion durch, um ein Ziel des Zieleffektors zu erfüllen (z. B. abzuschließen oder zu erreichen). In einigen Implementierungen ist ein Zieleffektor einem bestimmten Ziel zugeordnet, und die ER-Darstellung des Zieleffektors führt Aktionen durch, die die Wahrscheinlichkeit verbessern, dieses bestimmte Ziel zu erfüllen. In einigen Implementierungen werden ER-Darstellungen der Zieleffektoren beispielsweise als Objektdarstellungen bezeichnet, da die ER-Darstellungen der Zieleffektoren verschiedene Objekte (z. B. reale Objekte oder fiktive Objekte) darstellen. In einigen Implementierungen wird ein Zieleffektor, der ein Zeichen darstellt, als ein Zeichenzieleffektor bezeichnet. In einigen Implementierungen führt ein Zeichenzieleffektor Aktionen durch, um ein Zeichenziel zu erzielen. In einigen Implementierungen wird ein Zieleffektor, der eine Ausrüstung darstellt, als ein Ausrüstungszieleffektor bezeichnet. In einigen Implementierungen führt ein Ausrüstungszieleffektor Aktionen durch, um ein Ausrüstungsziel zu erzielen. In einigen Implementierungen wird ein Zieleffektor, der ein Umfeld darstellt, als ein Umfeldzieleffektor bezeichnet. In einigen Implementierungen führt ein Umfeldzieleffektor Umfeldaktionen durch, um ein Umfeldziel zu erzielen.
Während verschiedene Gesichtspunkte von Implementierungen innerhalb des Schutzumfangs der beiliegenden Ansprüche vorstehend beschrieben sind, sollte es offensichtlich sein, dass die verschiedenen Merkmale von vorstehend beschriebenen Implementierungen in einer breiten Vielfalt von Formen verkörpert werden können und dass jede spezifische Struktur und/oder Funktion, die vorstehend beschrieben ist, lediglich veranschaulichend ist. Basierend auf der vorliegenden Offenbarung sollte ein Fachmann erkennen, dass ein hierin beschriebener Gesichtspunkt unabhängig von beliebigen anderen Gesichtspunkten implementiert werden kann und dass zwei oder mehr dieser Gesichtspunkte auf verschiedene Weisen kombiniert werden können. Beispielsweise kann eine Vorrichtung implementiert werden und/oder ein Verfahren kann unter Verwendung einer beliebigen Anzahl der hierin dargelegten Gesichtspunkte ausgeführt werden. Darüber hinaus kann eine solche Vorrichtung implementiert werden und/oder kann ein solches Verfahren unter zusätzlicher Verwendung einer anderen Struktur und/oder Funktion oder einem anderen als dem einen oder den mehreren der hierin beschriebenen Gesichtspunkte ausgeführt werden. Es versteht sich auch, dass, wenngleich die Begriffe „erste(r)“, „zweite(r)“ usw. hierin verwendet werden können, um verschiedene Elemente zu beschreiben, diese Elemente nicht durch diese Begriffe eingeschränkt werden. Diese Begriffe werden nur verwendet, um ein Element von einem anderen zu unterscheiden. Zum Beispiel könnte ein erster Knoten als ein zweiter Knoten bezeichnet werden, und in ähnlicher Weise könnte ein zweiter Knoten als erster Knoten bezeichnet werden, ohne die Bedeutung der Beschreibung zu ändern, solange jedes Vorkommen des „ersten Knotens“ konsequent umbenannt wird und jedes Vorkommen des „zweiten Knotens“ konsequent umbenannt wird. Bei dem ersten Knoten und dem zweiten Knoten handelt es sich bei beiden um Knoten, es handelt sich jedoch nicht um denselben Knoten.
Die hierin verwendete Terminologie dient lediglich der Beschreibung bestimmter Implementierungen und ist nicht dazu beabsichtigt, die Ansprüche einzuschränken. Wie in der Beschreibung der Implementierungen und den beiliegenden Ansprüchen verwendet, sollen die Singularformen „ein“, „eine“, „der“, „die“ und „das“ auch die Pluralformen einschließen, sofern es im Kontext nicht eindeutig anders angegeben ist. Es versteht sich auch, dass der Begriff „und/oder“, so wie er hierin verwendet wird, sich auf jegliche und alle möglichen Kombinationen von einem oder mehreren der damit zusammenhängenden, aufgeführten Elemente bezieht und diese einschließt. Es versteht sich ferner, dass die Begriffe „umfasst“ und/oder „umfassend“, wenn sie in dieser Patentschrift verwendet werden, das Vorhandensein von aufgeführten Merkmalen, ganzen Zahlen, Schritten, Vorgängen, Elementen und/oder Komponenten angeben, aber das Vorhandensein oder das Hinzufügen von einem oder mehreren anderen Merkmalen, ganzen Zahlen, Schritten, Vorgängen, Elementen, Komponenten und/oder Gruppen davon nicht ausschließen.
Wie hierin verwendet, kann der Begriff „falls“ als „wenn“ oder „bei“ oder „infolge des Bestimmens“ oder „gemäß einer Bestimmung“ oder „infolge des Erfassens“, dass eine genannte vorausgehende Bedingung erfüllt ist, abhängig vom Kontext, verstanden werden. Ähnlich kann die Wendung „wenn bestimmt wird, [dass eine genannte vorausgehende Bedingung erfüllt ist]“ oder „falls [eine genannte vorausgehende Bedingung erfüllt ist]“ oder „wenn [eine genannte vorausgehende Bedingung erfüllt ist]“ als „bei Bestimmung“ oder „bei einer Bestimmung, dass“ oder „gemäß einer Bestimmung“ oder „beim Erkennen“ oder „infolge des Erkennens“ so interpretiert werden, dass eine genannte vorausgehende Bedingung, abhängig vom Kontext, erfüllt ist.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 62/837282 [0001]

Claims

Verfahren, umfassend: an einer Vorrichtung einschließlich eines nicht-transitorischen Speichers und eines oder mehrerer Prozessoren, die mit dem nicht-transitorischen Speicher gekoppelt sind: Erhalten von Umgebungsdaten, die einer physischen Umgebung entsprechen; Bestimmen, basierend auf den Umgebungsdaten, einer Begrenzungsfläche der physischen Umgebung; Erkennen eines physischen Elements, das sich innerhalb der physischen Umgebung befindet, basierend auf den Umgebungsdaten; Bestimmen eines semantischen Labels für das physische Element basierend auf mindestens einem Teil der Umgebungsdaten, die dem physischen Element entsprechen; und Generieren einer semantischen Konstruktion der physischen Umgebung basierend auf den Umgebungsdaten, wobei die semantische Konstruktion der physischen Umgebung eine Darstellung der Begrenzungsfläche, eine Darstellung des physischen Elements und das semantische Label für das physische Element einschließt.
Verfahren nach Anspruch 1, wobei das Erkennen des physischen Elements das Durchführen einer Instanzsegmentierung an den Umgebungsdaten beinhaltet, um das physische Element zu erkennen.
Verfahren nach einem der Ansprüche 1 bis 2, wobei das Erkennen des physischen Elements das Identifizieren einer optischen maschinenlesbaren Darstellung von Daten, die dem physischen Element zugeordnet sind, umfasst.
Verfahren nach Anspruch 3, wobei die optische maschinenlesbare Darstellung von Daten einen Strichcode einschließt und wobei das Erhalten der Umgebungsdaten das Scannen des Strichcodes umfasst.
Verfahren nach einem der Ansprüche 1 bis 4, wobei das Bestimmen des semantischen Labels das Durchführen einer semantischen Segmentierung an mindestens einem Teil der Umgebungsdaten, die dem physischen Element entsprechen, umfasst, um das semantische Label für das physische Element zu bestimmen.
Verfahren nach einem der Ansprüche 1 bis 5, wobei das Bestimmen des semantischen Labels das Identifizieren einer oder mehrerer Eigenschaften, die dem physischen Element zugeordnet sind, und das Auswählen des semantischen Labels basierend auf der einen oder den mehreren Eigenschaften, die dem physischen Element zugeordnet sind, umfasst.
Verfahren nach einem der Ansprüche 1 bis 6, wobei das Bestimmen des semantischen Labels das Durchführen einer Bildsuche basierend auf einem Teil der Umgebungsdaten, die dem physischen Element entsprechen, und das Empfangen des semantischen Labels als Suchergebnis umfasst.
Verfahren nach einem der Ansprüche 1 bis 7, wobei das Generieren der semantischen Konstruktion das Bestimmen einer Platzierung der Darstellung des physischen Elements in Bezug auf die Darstellung der Begrenzungsfläche umfasst.
Verfahren nach Anspruch 8, wobei das Bestimmen der Platzierung der Darstellung des physischen Elements das Bestimmen einer Ausrichtung der Darstellung des physischen Elements innerhalb der semantischen Konstruktion umfasst.
Verfahren nach einem der Ansprüche 1 bis 9, ferner umfassend: Generieren, basierend auf der semantischen Konstruktion der physischen Umgebung, einer Umgebung der erweiterten Realität (Enhanced Reality - ER), die der physischen Umgebung entspricht, wobei die ER-Umgebung ein ER-Objekt einschließt, das das physische Element darstellt.
Verfahren nach Anspruch 10, ferner umfassend: Anzeigen der ER-Umgebung mit dem ER-Objekt.
Verfahren nach einem der Ansprüche 1 bis 11, ferner umfassend: Bereitstellen der semantischen Konstruktion der physischen Umgebung einem virtuellen intelligenten Agenten (VIA), der Aktionen für ein ER-Objekt generiert, das den VIA darstellt.
Verfahren nach einem der Ansprüche 1 bis 12, ferner umfassend: Bereitstellen der semantischen Konstruktion der physischen Umgebung für eine Zieleffektor-Engine, die Aktionen für ein ER-Objekt generiert, das einen Zieleffektor darstellt, der in der ER-Umgebung instanziiert ist.
Verfahren nach einem der Ansprüche 1 bis 13, wobei die Begrenzungsfläche eine physische Fläche in der physischen Umgebung einschließt.
Verfahren nach Anspruch 14, wobei die Begrenzungsfläche einen Fußboden, eine Decke oder eine Wand in der physischen Umgebung einschließt.
Verfahren nach einem der Ansprüche 1 bis 14, wobei das Bestimmen der Begrenzungsfläche das Identifizieren einer Begrenzung, die der physischen Umgebung zugeordnet ist, und das Darstellen der Begrenzung mit einer Darstellung einer Fläche in der semantischen Konstruktion der physischen Umgebung einschließt.
Verfahren nach Anspruch 16, wobei das Identifizieren der Begrenzung das Identifizieren einer Grundstückslinie, die der physischen Umgebung zugeordnet ist, auf der Basis von in einem Datenspeicher gespeicherten Informationen einschließt.
Verfahren nach einem der Ansprüche 16 und 17, ferner umfassend: Hinzufügen einer Darstellung einer Wand in der semantischen Konstruktion entlang der Begrenzung.
Verfahren nach einem der Ansprüche 1 bis 18, wobei die Umgebungsdaten Tiefeninformationen einschließen, die von einem Tiefensensor erfasst werden.
Verfahren nach einem der Ansprüche 1 bis 19, wobei die Umgebungsdaten ein Bild oder ein Video einschließen, das von einem Bildsensor erfasst wird.
Verfahren nach einem der Ansprüche 1 bis 20, wobei das Bestimmen des semantischen Labels umfasst: Generieren einer Punktwolke, die eine Vielzahl von Punkten einschließt; Erhalten jeweiliger Charakterisierungsvektoren für die Vielzahl von Punkten; Generieren des semantischen Labels für die Punktwolke als Reaktion darauf, dass die Vielzahl von Punkten einen Objektkonfidenzschwellenwert erfüllt.
Verfahren nach Anspruch 21, wobei die Vielzahl von Punkten den Objektkonfidenzschwellenwert erfüllt, wenn eine Schwellenwertanzahl von Charakterisierungsvektoren Labelwerte einschließt, die innerhalb eines Ähnlichkeitsgrads liegen.
Vorrichtung, umfassend: einen oder mehrere Prozessoren; einen nicht-transitorischen Speicher; eine oder mehrere Anzeigen; und ein oder mehrere Programme, die in dem nicht-transitorischen Speicher gespeichert sind und die, wenn sie von dem einen oder den mehreren Prozessoren ausgeführt werden, veranlassen, dass die Vorrichtung eines der Verfahren nach Anspruch 1 bis 22 durchführt.
Nicht-transitorischer Speicher, der ein oder mehrere Programme speichert, die, wenn sie von einem oder mehreren Prozessoren einer Vorrichtung mit einer Anzeige ausgeführt werden, veranlassen, dass die Vorrichtung eines der Verfahren nach Anspruch 1 bis 22 durchführt.
Vorrichtung, umfassend: einen oder mehrere Prozessoren; einen nicht-transitorischen Speicher; eine Anzeige; und Mittel, um die Vorrichtung dazu zu veranlassen, eines der Verfahren nach Anspruch 1 bis 22 durchzuführen.