DE112017004150T5

DE112017004150T5 - Automatisches markieren von dynamischen objekten in einer multiview-digital-darstellung

Info

Publication number: DE112017004150T5
Application number: DE112017004150.3T
Authority: DE
Inventors: Stefan Johannes Josef HOLZER; Stephen David Miller; Radu Bogdan Rusu
Original assignee: Fyusion Inc
Current assignee: Fyusion Inc San Francisco Us
Priority date: 2016-08-19
Filing date: 2017-08-18
Publication date: 2019-06-13
Also published as: JP7098604B2; WO2018035500A1; JP2019534494A

Abstract

Verschiedene Ausführungsformen der vorliegenden Offenbarung beziehen sich allgemein auf Systeme und Verfahren zum automatischen Markieren von Objekten auf einer Multi-View-Interaktiven-Digitale-Medien-Darstellung einer dynamischen Entität. Nach bestimmten Ausführungsformen wird die räumliche Beziehung zwischen mehreren Bildern und Videos zusammen mit Ortsinformationsdaten analysiert, um eine Darstellung zu erzeugen, die hierin als Multi-View-Interaktiven-Digitale-Medien-Darstellung zur Darstellung auf einer Vorrichtung bezeichnet wird. Multi-View-Interaktiven-Digitale-Medien-Darstellungenentspriechen Multi-View-Interaktiven-Digitale-MedienDarstellungen der dynamischen Objekte in Hintergründen. Eine erste Multi-View-Interaktiven-Digitale-Medien-Darstellung eines dynamischen Objekts wird erhalten. Als Nächstes wird das dynamische Objekt markiert. Dann wird eine zweite Multi-View-Interaktiven-Digitale-Medien-Darstellung erzeugt. Schließlich wird das dynamische Objekt in der zweiten Multi-View-Interaktiven-Digitale-Medien-Darstellung automatisch identifiziert und gekennzeichnet.

Description

VERWEIS AUF VERWANDTE ANMELDUNG
Diese Anmeldung beansprucht die Priorität der am 12. Juni 2017 eingereichten US-Patentanmeldung Nr. 15/620,506 , die ihrerseits die Priorität der Vorläufigen US-Anmeldung Nr. 62/377,516 beansprucht, eingereicht am 19. August 2016, auf die hier in vollem Umfang für alle Zwecke Bezug genommen wird. Darüber hinaus ist diese Anmeldung eine „Continuation-in-part“-Anmeldung der US Anmeldung mit Seriennummer 14/800,638 , eingereicht am 15. Juli 2015, auf die hier in vollem Umfang für alle Zwecke Bezug genommen wird.
TECHNISCHES GEBIET
Die vorliegende Offenbarung bezieht sich allgemein auf Multi-View-Interaktive-Digitale-Medien-Darstellungen.
HINTERGRUND
Mit der Entwicklung moderner Computerplattformen und -technologien hin zu mobilen und tragbaren Vorrichtungen, die Kamerasensoren als native Erfassungseingangsströme enthalten, wird der Wunsch, Momente digital in einer anderen Form als in herkömmlichen zweidimensionalen (2D) flachen Bildern und Videos digital aufzuzeichnen und zu erhalten, immer deutlicher ersichtlich. Herkömmliche digitale Medienformate beschränken ihre Betrachter normalerweise auf ein passives Erlebnis. Zum Beispiel kann ein flaches 2D-Bild aus einem Blickwinkel betrachtet werden und ist auf das Ein- und Auszoomen beschränkt. Dementsprechend eignen sich herkömmliche digitale Medienformate, wie z. B. flache 2D-Bilder, nicht ohne weiteres für die Wiedergabe von Erinnerungen und Ereignissen mit hoher Wiedergabetreue.
Aktuelle Prognosen (Siehe: KPCB „Internet Trends 2012“ Präsentation“) zeigen, dass sich die Menge an visuellen Daten, die online digital erfasst werden, alle paar Jahre verdoppelt. Mit dieser Menge an visuellen Daten steigt auch der Bedarf an weitaus umfassenderen Such- und Indexierungsmechanismen als die derzeit Verfügbaren. Leider sind weder 2D-Bilder noch 2D-Videos für diese Zwecke vorgesehen. Dementsprechend sind verbesserte Mechanismen wünschenswert, die Benutzern ermöglichen, visuelle Daten anzeigen und indizieren sowie aussagekräftige Ergebnisse von visuellen Daten abfragen und schnell erhalten können.
KURZDARSTELLUNG DER ERFINDUNG
Verschiedene Ausführungsformen der vorliegenden Offenbarung beziehen sich allgemein auf Systeme und Verfahren zum automatischen Markieren von Objekten auf einer Multi-View-Interaktiven-Digitale-Medien-Darstellung (MIDMR) einer dynamischen Entität. Gemäß einiger Ausführungsformen wird die räumliche Beziehung zwischen mehreren Bildern und Videos zusammen mit Ortsinformationsdaten analysiert, um eine Darstellung zu erzeugen, die hierin als Multi-View-Interaktiven-Digitale-Medien-Darstellung zur Darstellung auf einer Vorrichtung bezeichnet wird. Multi-View-Interaktiven-Digitale-Medien-Darstellungenentspriechen Multi-View-Interaktiven-Digitale-Medien-Darstellungen der dynamischen Objekte in Hintergründen. Eine erste Multi-View-Interaktiven-Digitale-Medien-Darstellung eines dynamischen Objekts wird erhalten. Als Nächstes wird das dynamische Objekt markiert. Dann wird eine zweite Multi-View-Interaktiven-Digitale-Medien-Darstellung erzeugt. Schließlich wird das dynamische Objekt in der zweiten Multi-View-Interaktiven-Digitale-Medien-Darstellung automatisch identifiziert und gekennzeichnet.
Figurenliste
Die Offenbarung kann am besten unter Bezugnahme auf die folgende Beschreibung in Verbindung mit den beigefügten Zeichnungen verstanden werden, die bestimmte Ausführungsformen der vorliegenden Offenbarung veranschaulichen .

1 veranschaulicht ein Beispiel eines MIDMR-Erfassungssystems.
2 veranschaulicht ein Beispiel eines Prozessablaufs zum Erzeugen einer MIDMR.
3 zeigt ein Beispiel für mehrere Kameraansichten, die zu einem dreidimensionalen (3D) Modell zusammengefügt werden können, um ein immersives Erlebnis zu schaffen.
4A veranschaulicht ein Beispiel für die Trennung von Inhalt und Kontext in einer MIDMR.
4B veranschaulicht ein Beispiel der Lagen in einer MIDMR.
4C veranschaulicht ein Beispiel eines Prozesses zum Modifizieren einer Lage in einer MIDMR.
5A - 5B veranschaulichen Beispiele der konkaven bzw. konvexen Ansicht, wobei beide Ansichten einen Rückseitenkameraerfassungsstil verwenden.
6A - 6E veranschaulichen Beispiele verschiedener Erfassungsmodi für MIDMRs.
7A veranschaulicht ein Beispiel eines Prozesses zum Aufzeichnen von Daten, die zum Erzeugen einer MIDMR verwendet werden können.
7B veranschaulicht ein Beispiel eines dynamischen Panoramaerfassu ngsprozesses.
7C zeigt ein Beispiel eines dynamischen Panoramaerfassungsprozesses, bei dem die Erfassungsvorrichtung durch die Rotationsachse gedreht wird.
7D zeigt ein Beispiel eines dynamischen Panoramas mit dynamischem Inhalt.
7E veranschaulicht ein Beispiel zum Erfassen eines dynamischen Panoramas mit einem 3D-Effekt.
7F zeigt ein Beispiel eines dynamischen Panoramas mit Parallaxeneffekt.
7G veranschaulicht ein Beispiel eines Objektpanoramaerfassungsprozesses.
7H zeigt ein Beispiel eines Hintergrundpanoramas mit einem darauf projizierten Objektpanorama.
7I veranschaulicht ein Beispiel mehrerer Objekte, die ein Objektpanorama darstellen.
7J veranschaulicht ein Beispiel zum Ändern des Betrachtungswinkels eines Objektpanoramas basierend auf einer Benutzerführung.
7K zeigt ein Beispiel eines Selfie-Panoramaerfassungsprozesses.
7L zeigt ein Beispiel eines Hintergrundpanoramas mit einem darauf projizierten Selfie-Panorama.
7M zeigt ein Beispiel für erweiterte Ansichten von Panoramen basierend auf der Benutzernavigation.
8 veranschaulicht ein Beispiel einer MIDMR, bei dem dreidimensionaler Inhalt mit einem zweidimensionalen Panoramakontext gemischt wird.
9 zeigt ein Beispiel einer Raum-Zeit-MIDMR, die gleichzeitig von unabhängigen Beobachtern aufgezeichnet wird.
10 zeigt ein Beispiel für die Aufteilung einer komplexen Rundumansicht in kleinere lineare Teile.
11 veranschaulicht ein Beispiel einer Kombination mehrerer MIDMRs in eine Multi-MIDMR.
12 veranschaulicht ein Beispiel eines Prozesses zum Auffordern eines Benutzers nach zusätzlichen Ansichten eines Objekts von Interesse, um eine genauere MIDMR bereitzustellen.
13A - 13B veranschaulichen ein Beispiel für die Aufforderung eines Benutzers nach zusätzlichen Ansichten eines zu durchsuchenden Objekts.
14 veranschaulicht ein Beispiel eines Prozesses zum Navigieren einer MIDMR.
15A zeigt ein Beispiel einer Swipe-basierten Navigation einer MIDMR.
15B zeigt eine beispielhafte erste MIDMR eines dynamischen Panoramas mit dynamischem Inhalt und automatischem Markieren (Tagging).
15C zeigt ein Beispiel einer zweiten MIDMR eines dynamischen Panoramas mit dynamischem Inhalt und automatischer Markierung (Tagging).
15D veranschaulicht ein Beispiel eines Prozesses zur automatischen Markierung (Tagging) eines dynamischen Objekts innerhalb von MIDMRs.
16A veranschaulicht Beispiele eines Diensts zum Teilen von MIDMRs, wie auf einer mobilen Vorrichtung und einem Browser dargestellt.
16B zeigt Beispiele von MIDMR-bezogenen Benachrichtigungen auf einer mobilen Vorrichtung.
17A veranschaulicht ein Beispiel eines Prozesses für die Bereitstellung von Objektsegmentierung.
17B veranschaulicht ein Beispiel eines segmentierten Objekts, das aus verschiedenen Winkeln betrachtet wird.
18 veranschaulicht ein Beispiel verschiedener Datenquellen, die zur Erzeugung der MIDMR verwendet werden können, und verschiedener Anwendungen, die mit einer MIDMR verwendet werden können.
19 veranschaulicht ein Beispiel eines Prozesses zum Bereitstellen einer visuellen Suche eines Objekts, wobei die Suchabfrage eine MIDMR des Objekts enthält und die durchsuchten Daten dreidimensionale Modelle enthalten.
20 veranschaulicht ein Beispiel eines Prozesses zum Bereitstellen einer visuellen Suche eines Objekts, wobei die Suchabfrage eine MIDMR des Objekts enthält und die durchsuchten Daten zweidimensionale Bilder enthalten.
21 veranschaulicht ein Beispiel eines visuellen Suchprozesses.
22 veranschaulicht ein Beispiel eines Prozesses zum Bereitstellen einer visuellen Suche eines Objekts, wobei die Suchabfrage eine zweidimensionale Ansicht des Objekts enthält und die durchsuchten Daten eine oder mehrere MIDMR(s) enthalten.
23 zeigt ein bestimmtes Beispiel eines Computersystems, das mit verschiedenen Ausführungsformen der vorliegenden Offenbarung verwendet werden kann.

AUSFÜHRLICHE BESCHREIBUNG
Wie hier verwendet, bezieht sich der Begriff „Multi-View-Interaktiven-Digitale-Medien-Darstellungen“ (MIDMR) auf eine technische Verbesserung gegenüber einer typischen „ Rundumansicht“. Während also MIDMRs ähnlich wie Rundumansichten sind, sind sie technisch davon unterschieden, da sie auf erweiterten Funktionen von MIDMRs basieren, z. B. IMU-Rotationskompensationsfaktoren, die die ungenaue Erfassung von Bogenbahnen ermöglichen.
Eine MIDMR wird erzeugt, nachdem Verstärkungsalgorithmen angewendet werden. In verschiedenen Beispielen kann die MIDMR ein dreidimensionales Modell des Inhalts und ein zweidimensionales Modell des Kontexts enthalten. In einigen Beispielen kann der Kontext jedoch eine „flache“ Ansicht der Szenerie oder des Hintergrunds darstellen, wenn diese entlang einer Oberfläche, wie z. B. einer zylindrischen oder anders geformten Oberfläche, projiziert wird, so dass der Kontext nicht rein zweidimensional ist. In noch anderen Beispielen kann der Kontext dreidimensionale Aspekte enthalten.
Gemäß verschiedenen Ausführungsformen bieten MIDMRs zahlreiche Vorteile gegenüber herkömmlichen zweidimensionalen Bildern oder Videos. Einige dieser Vorteile umfassen: die Fähigkeit, sich bewegende Szenerien, eine sich bewegende Erfassungsvorrichtung oder beides zu nutzen; die Fähigkeit, Teile der Szene dreidimensional zu modellieren; die Möglichkeit, unnötige, redundante Informationen zu entfernen und den Speicherbedarf des Ausgabedatensatzes zu reduzieren; die Fähigkeit, zwischen Inhalt und Kontext zu unterscheiden; die Fähigkeit, die Unterscheidung zwischen Inhalt und Kontext zur Verbesserung der Benutzererfahrung zu nutzen; die Fähigkeit, die Unterscheidung zwischen Inhalt und Kontext zur Verbesserung des Speicherbedarfs zu nutzen (ein Beispiel wäre die Komprimierung von Inhalten mit hoher Qualität und die Kompression von Inhalten mit niedriger Qualität); die Fähigkeit, MIDMRs mit speziellen Funktionsbeschreibungen zu verknüpfen, die es ermöglichen, die MIDMRs mit einem hohen Maß an Effizienz und Genauigkeit zu indizieren; und die Fähigkeit des Benutzers, zu interagieren und den Sichtpunkt der MIDMR zu ändern. In bestimmten beispielhaften Ausführungsformen können die oben beschriebenen Eigenschaften nativ in die MIDMR- Darstellung einbezogen werden und bieten die Fähigkeit zur Verwendung in verschiedenen Anwendungen. Zum Beispiel können MIDMRs zur Verbesserung verschiedener Bereiche wie E-Commerce, visuelle Suche, 3D-Druck, Dateifreigabe, Benutzerinteraktion und Unterhaltung verwendet werden.
In einigen Ausführungsformen ist das MIDMR-Modell kein tatsächlich gerendertes dreidimensionales Modell, sondern eine dreidimensionale Ansicht, die vom Benutzer als dreidimensionales Modell erlebt wird. Beispielsweise bietet die MIDMR eine dreidimensionale Ansicht des Inhalts, ohne ein tatsächliches dreidimensionales Modell zu rendern und/oder zu speichern. Mit anderen Worten, es gibt keine Polygonerzeugung oder Texturabbildung über einem dreidimensionalen Netz- und/oder Polygonmodell. Der Benutzer nimmt den Inhalt und/oder Kontext jedoch immer noch als ein tatsächliches dreidimensionales Modell wahr. Der durch die MIDMR bereitgestellte dreidimensionale Effekt wird einfach durch Zusammenfügen von tatsächlichen zweidimensionalen Bildern und/oder Teilen davon erzeugt. Der Begriff „dreidimensionales Modell“ wird hier austauschbar mit dieser Art von dreidimensionaler Ansicht verwendet. Navigationseingaben von einer Eingabevorrichtung können verwendet werden, um auszuwählen, welche Bilder in einer MIDMR ausgegeben werden sollen. Ein Benutzer kann beispielsweise eine mobile Vorrichtung neigen oder auf einer Touchscreen-Anzeige wischen, um die Bilder auszuwählen, die in einer MIDMR ausgegeben werden sollen. Die Navigationseingaben ändern die scheinbare Position des in einer MIDMR enthaltenen Objekts auf der Anzeige. Beispielsweise kann das Objekt als Reaktion auf die Navigationseingaben auf dem Display rotieren.
Der MIDMR-Ansatz unterscheidet sich vom Rendern eines Objekts von einem vollständigen 3D-Modell. Bei einem vollständigen 3D-Modellansatz können die Navigationseingaben verwendet werden, um die Position des 3D-Modells im 3D-Modellbereich anzupassen. Dann kann das 3D-Modell jedes Mal, wenn sich seine Position im 3D-Modellraum ändert, als Reaktion auf die Navigationseingaben zu einem 2D-Bild gerendert werden. Dieser Ansatz des 3D-Modells sorgt für mehr Übergänge, da die Bewegungen des Objekts nicht vorbestimmt sind. Der Ansatz des 3D-Modells ist jedoch rechenaufwendig, insbesondere wenn die Komplexität des 3D-Modells zunimmt. Darüber hinaus muss ein 3D-Modell erstellt werden, das zeitaufwändig sein kann.
Der MIDMR-Ansatz erfordert nicht das konstante Rendern von Bildern von einem 3D-Modellbereich zu einem 2D-Bild. Darüber hinaus erfordert der MIDMR-Ansatz nicht die Erzeugung eines 3D-Modells. Somit kann der MIDMR-Ansatz scheinbare Bewegungen eines Objekts in 3D schneller und recheneffizienter darstellen.
In verschiedenen Ausführungsformen kann eine MIDMR Bilder mit einem Objekt enthalten. Wenn die MIDMR ausgegeben wird, kann das Objekt eine scheinbare Bewegung aufweisen, z. B. die Fähigkeit, sich um eine oder mehrere Achsen zu drehen. Zum Beispiel kann die MIDMR Bilder einer Person enthalten, die bei einer Ausgabe erscheinen lassen, dass sich die Person um eine Achse dreht, sodass die Person aus verschiedenen Winkeln betrachtet werden kann. Die scheinbare Drehung wird nur unter Verwendung von 2D-Bildern erreicht und erfordert kein 3D-Modell des Objekts, beispielsweise ein 3D-Modell, das mehrere Polygone und zugehörige Texturen enthält. Daher können die Operationen auf eine rechnerisch effizientere Weise ausgeführt werden, da kein texturiertes 3D-Modell des Objekts generiert werden muss, die Position des 3D-Modells des Objekts und seiner Polygone im 3D-Raum nicht für jede Rotation bestimmt werden muss, und nachdem das 3D-Modell des Objekts im 3D-Raum positioniert wurde, es nicht strukturiert und dann zu einem 2D-Bild gerendert werden muss, um auf einer Anzeige ausgegeben zu werden. Durch den Wegfall dieser Schritte mit einem MIDMR-Ansatz wird der Speicher- und CPU- Bedarf im Vergleich zu einem herkömmlichen 3D-Modellierungsansatz erheblich reduziert.
Wenn eine scheinbare Bewegung eines Objekts von einer MIDMR ausgegeben wird, erscheint es außerdem so, als würde die Objektbewegung aus einem 3D-Texturmodell mit Bildqualität erzeugt. Bildqualität 3D-Texturmodelle werden in einem zeitaufwändigen und häufig manuellen Prozess erstellt. Insbesondere die Erzeugung eines texturierten 3D-Modells mit Bildqualität eines Objekts, beispielsweise einer tatsächlichen Person, ist ziemlich schwierig und zeitaufwendig, insbesondere wenn eine „lebensechte“ Wiedergabe des Objekts gewünscht wird.
Im MIDMR-Ansatz können aufgrund der Eliminierung der 3D-Modellierungsschritte vom Benutzer ausgewählte Objekte aus vom Benutzer generierten 2D-Bildern schnell in eine MIDMR konvertiert und dann in Echtzeit auf eine Anzeige ausgegeben werden. Während der Ausgabe kann der Benutzer Aspekte der scheinbaren Bewegung des Objekts innerhalb der MIDMR steuern. Da das Objekt in der MIDMR aus realen Bildern erzeugt werden kann, wie zum Beispiel Bildern, die von einer vom Benutzer gesteuerten Kamera empfangen werden, erscheint das Objekt bei der Ausgabe naturgetreu. Bei einem herkömmlichen 3D-Modellierungsansatz wird diese Fähigkeit aufgrund der Schwierigkeiten bei der Erzeugung eines 3D-Modells für die Bildqualität nicht angeboten.
Nun wird detailliert auf einige spezifische Beispiele der in der vorliegenden Offenbarung beschriebenen Systeme und Verfahren Bezug genommen, einschließlich der besten Modi zum Tragen der beschriebenen Systeme und Verfahren. Beispiele dieser spezifischen Ausführungsformen sind in den beigefügten Zeichnungen dargestellt. Während die vorliegende Offenbarung in Verbindung mit diesen spezifischen Ausführungsformen beschrieben wird, ist es selbstverständlich, dass nicht beabsichtigt ist, die Offenbarung auf die beschriebenen Ausführungsformen zu beschränken. Es ist im Gegenteil beabsichtigt, Alternativen, Modifikationen und Äquivalente abzudecken, die im Geist und Umfang der Offenbarung enthalten sein können, wie sie in den beigefügten Ansprüchen definiert sind.
In der folgenden Beschreibung werden zahlreiche spezifische Details dargelegt, um ein gründliches Verständnis der vorliegenden Offenbarung zu ermöglichen. Bestimmte Ausführungsformen der vorliegenden Offenbarung können ohne einige oder alle dieser spezifischen Details implementiert werden. In anderen Fällen wurden bekannte Prozessvorgänge nicht im Detail beschrieben, um die vorliegende Offenbarung nicht unnötig zu verschleiern.
Verschiedene Aspekte der vorliegenden Offenbarung beziehen sich allgemein auf Systeme und Verfahren zum Analysieren der räumlichen Beziehung zwischen mehreren Bildern und Videos zusammen mit Standortinformationsdaten, um eine einzige Darstellung, eine MIDMR, zu erzeugen, die Redundanz in den Daten eliminiert und dem Benutzer ein interaktives und immersives aktives Seherlebnis bereitstellt. Gemäß verschiedenen Ausführungsformen wird aktiv im Kontext der Bereitstellung der Fähigkeit, die Sicht der visuellen Informationen, die auf einem Bildschirm angezeigt werden, für einen Benutzer zu steuern. In bestimmten beispielhaften Ausführungsformen ist die MIDMR-Datenstruktur (und die zugehörigen Algorithmen) nativ für Anwendungen aufgebaut, die eine visuelle Suche beinhalten.
Mit Bezug auf 1, ist ein Beispiel eines MIDMR- Erfassungssystems 100 gezeigt. In der vorliegenden beispielhaften Ausführungsform ist das MIDMR-Erfassungssystem 100 in einer Flusssequenz dargestellt, die zum Erzeugen einer MIDMR verwendet werden kann. Gemäß verschiedenen Ausführungsformen können die Daten, die zum Erzeugen einer MIDMR verwendet werden, aus mehreren Quellen stammen. Insbesondere können Daten, wie beispielsweise, aber nicht beschränkt auf zweidimensionale (2D-) Bilder 104 verwendet werden, um eine MIDMR zu erzeugen. Diese 2D-Bilder können je nach Anwendung Farbbilddatenströme wie mehrere Bildsequenzen, Videodaten, usw. oder mehrere Bilder in verschiedenen Formaten für Bilder enthalten. Eine andere Datenquelle, die zum Erzeugen einer MIDMR verwendet werden kann, umfasst Standortinformationen 106. Diese Standortinformationen 106 können von Quellen wie Beschleunigungsmessern, Gyroskopen, Magnetometern, GPS, WLAN, IMU-ähnlichen Systemen (Inertial-Measurement-Unit-Systemen) und dergleichen erhalten werden. Eine weitere Datenquelle, die zum Erzeugen einer MIDMR verwendet werden kann, kann Tiefenbilder 108 enthalten. Diese Tiefenbilder können Tiefen-, 3D- oder Ungleichheitsbilddatenströme und dergleichen enthalten und können durch Vorrichtungen wie beispielsweise, jedoch nicht beschränkt auf Stereokameras, Flugzeitkameras, dreidimensionale Kameras und dergleichen erfasst werden.
Im vorliegenden Beispiel Ausführungsbeispiel können die Daten dann im Sensorfusionsblock 110 miteinander verschmolzen werden. In einigen Ausführungsformen kann eine MIDMR als eine Kombination von Daten erzeugt werden, die 2D-Bilder 104 und Ortsinformationen 106 erzeugt, ohne, dass Tiefenbilder 108 bereitgestellt sind. In anderen Ausführungsformen können Tiefenbilder 108 und Ortsinformationen 106 zusammen im Sensorfusionsblock 110 verwendet werden. Verschiedene Kombinationen von Bilddaten können abhängig von der Anwendung und verfügbaren Daten mit Ortsinformationen bei 106 verwendet werden.
In der vorliegenden beispielhaften Ausführungsform werden die Daten, die im Sensorfusionsblock 110 miteinander verschmolzen wurden, dann für die Inhaltsmodellierung 112 und die Kontextmodellierung 114 verwendet. Wie in 4 ausführlicher dargestellt, kann der in den Bildern dargestellte Gegenstand in Inhalt und Kontext unterteilt werden. Der Inhalt kann als das Objekt von Interesse abgegrenzt werden, und der Kontext kann als die Umgebung definiert werden, die das Objekt von Interesse umgibt. Gemäß verschiedenen Ausführungsformen kann der Inhalt ein dreidimensionales Modell sein, das ein Objekt von Interesse darstellt, obwohl der Inhalt in einigen Ausführungsformen ein zweidimensionales Bild sein kann, wie im Folgenden ausführlicher mit Bezug auf 4 beschrieben. Weiterhin kann der Kontext in einigen Ausführungsformen ein zweidimensionales Modell sein, das die das Objekt von Interesse umgebende Szenerie darstellt. Obwohl der Kontext in vielen Beispielen zweidimensionale Ansichten der Szenerie liefern kann, die das Objekt von Interesse umgibt, kann der Kontext in einigen Ausführungsformen auch dreidimensionale Aspekte enthalten. Beispielsweise kann der Kontext als ein „flaches“ Bild entlang einer zylindrischen „Leinwand“ dargestellt werden, sodass das „flache“ Bild auf der Oberfläche eines Zylinders erscheint. Außerdem können einige Beispiele dreidimensionale Kontextmodelle enthalten, z. B. wenn einige Objekte in der Umgebungsszene als dreidimensionale Objekte identifiziert werden. Gemäß verschiedenen Ausführungsformen können die Modelle, die durch Inhaltsmodellierung 112 und Kontextmodellierung 114 bereitgestellt werden, erzeugt werden, indem die Bild- und Ortsinformationsdaten kombiniert werden, wie ausführlicher mit Bezug auf 3 beschrieben.
Gemäß verschiedenen Ausführungsformen werden Kontext und Inhalt einer MIDMR basierend auf einem spezifizierten Objekt von Interesse bestimmt. In einigen Beispielen wird ein Objekt von Interesse automatisch basierend auf der Verarbeitung der Bild- und Ortsinformationsdaten ausgewählt. Wird beispielsweise ein dominantes Objekt in einer Reihe von Bildern erkannt, kann dieses Objekt als Inhalt ausgewählt werden. In anderen Beispielen kann ein vom Benutzer vorgegebenes Ziel 102 ausgewählt werden, wie in 1 dargestellt. Es sollte jedoch beachtet werden, dass eine MIDMR in einigen Anwendungen ohne ein vom Benutzer angegebenes Ziel generiert werden kann.
In der vorliegenden beispielhaften Ausführungsform können ein oder mehrere Verbesserungsalgorithmen in dem Verbesserungsalgorithmus-Block 116 angewendet werden. In bestimmten beispielhaften Ausführungsformen können verschiedene Algorithmen während der Erfassung von MIDMR-Daten unabhängig von der Art des verwendeten Aufnahmemodus verwendet werden. Diese Algorithmen können verwendet werden, um die Benutzererfahrung zu verbessern. Während der Erfassung von MIDMR-Daten können beispielsweise automatische Frameauswahl, Stabilisierung, Ansichtsinterpolation, Filter und/oder Komprimierung verwendet werden. In einigen Beispielen können diese Verbesserungsalgorithmen nach der Erfassung der Daten auf Bilddaten angewendet werden. In anderen Beispielen können diese Verbesserungsalgorithmen während der Erfassung von MIDMR-Daten auf Bilddaten angewendet werden.
Gemäß bestimmten beispielhaften Ausführungsformen kann eine automatische Frameauswahl verwendet werden, um eine angenehmere MIDMR zu erzeugen. Insbesondere werden Frames automatisch ausgewählt, sodass der Übergang zwischen ihnen glatter oder gleichmäßiger wird. Diese automatische Frameauswahl kann in einigen Anwendungen die Erkennung von Verschwimmen und Überbelichtung enthalten, sowie gleichmäßigere Abtastpositionen einschließen, sodass diese gleichmäßiger verteilt werden.
In einigen beispielhaften Ausführungsformen kann die Stabilisierung für eine MIDMR auf ähnliche Weise wie für Videos verwendet werden. Insbesondere können Keyframes in einer MIDMR stabilisiert werden, um Verbesserungen wie weichere Übergänge, verbesserten/verstärkten Fokus auf den Inhalt usw. zu erzielen. Im Gegensatz zu Videos gibt es jedoch viele zusätzliche Stabilisierungsquellen für eine MIDMR, z. B. durch Verwendung von IMU-Informationen, Tiefeninformationen, Computervisionstechniken, direkte Auswahl eines zu stabilisierenden Bereichs, Gesichtserkennung und dergleichen.
Zum Beispiel können IMU-Informationen zur Stabilisierung sehr hilfreich sein. Insbesondere liefern IMU-Informationen eine Schätzung des Kamerazitterns, die während der Bilderfassung auftreten kann, obwohl dies manchmal eine grobe oder verrauschte Schätzung ist. Diese Schätzung kann verwendet werden, um die Auswirkungen eines solchen Kamerazitterns zu entfernen, abzubrechen und/oder zu reduzieren.
In einigen Beispielen können Tiefeninformationen, falls verfügbar, zur Stabilisierung einer MIDMR verwendet werden. Weil Punkte von Interesse in einer MIDMR dreidimensional und nicht zweidimensional sind, sind diese Punkte von Interesse eingeschränkter, und das Verfolgen/Anpassen dieser Punkte wird vereinfacht, wenn der Suchraum reduziert wird. Deskriptoren für Punkte von Interesse können außerdem sowohl Farb- als auch Tiefeninformationen verwenden und werden daher genauer. Weiterhin kann die automatische oder halbautomatische Inhaltsauswahl mit Tiefeninformationen einfacher bereitgestellt werden. Wenn ein Benutzer beispielsweise ein bestimmtes Pixel eines Bildes auswählt, kann diese Auswahl erweitert werden, um die gesamte Oberfläche auszufüllen, die das Bild berührt. Darüber hinaus kann der Inhalt auch automatisch ausgewählt werden, indem eine Tiefen-/Vordergrundunterscheidung verwendet wird. In verschiedenen Beispielen kann der Inhalt auch bei Änderungen des Kontextes relativ stabil bleiben.
Gemäß verschiedenen Beispielen können Computersichttechniken auch verwendet werden, um die Stabilisierung von MIDMR bereitzustellen. Beispielsweise können Schlüsselpunkte erkannt und verfolgt werden. In bestimmten Szenen, z. B. einer dynamischen Szene oder einer statischen Szene mit Parallaxe, existiert jedoch kein einfacher Verzug, der alles stabilisieren kann. Folglich kommt es zu einem Kompromiss, bei dem bestimmte Aspekte der Szene stärker stabilisiert werden und andere Aspekte der Szene weniger. Da eine MIDMR oft auf ein bestimmtes Objekt von Interesse fokussiert ist, kann eine MIDMR inhaltsgewichtet sein, sodass das Objekt von Interesse maximal in einigen Beispielen stabilisiert wird.
Eine andere Möglichkeit, die Stabilisierung in einer MIDMR zu verbessern, umfasst die direkte Auswahl eines Bereichs eines Bildschirms. Wenn zum Beispiel ein Benutzer auf einen Bereich eines Bildschirms tippt, um einen konvexen MIDMR aufzuzeichnen, kann der Bereich, der angetippt wurde, maximal stabilisiert werden. Dadurch können Stabilisierungsalgorithmen auf einen bestimmten Bereich oder ein Objekt von Interesse fokussiert werden.
In einigen Beispielen kann die Gesichtserkennung zur Stabilisierung verwendet werden. Wenn beispielsweise mit einer Frontkamera aufgenommen wird, ist es häufig wahrscheinlich, dass der Benutzer das Objekt von Interesse in der Szene ist. Somit kann die Gesichtserkennung verwendet werden, um die Stabilisierung um diesen Bereich zu gewichten. Wenn die Gesichtserkennung genau genug ist, können Gesichtsmerkmale selbst (wie Augen, Nase, Mund) als zu stabilisierende Bereiche verwendet werden, anstatt allgemeine Schlüsselpunkte zu verwenden.
Gemäß verschiedenen Beispielen kann die Sichtinterpolation verwendet werden, um das Seherlebnis zu verbessern. Um plötzliche „Sprünge“ zwischen stabilisierten Frames zu vermeiden, können synthetische Zwischenansichten im laufenden Betrieb gerendert werden. Dies kann durch inhaltsgewichtete Schlüsselpunktspuren und IMU-Informationen wie oben beschrieben sowie durch dichtere Pixel-zu-Pixel-Übereinstimmungen mitgeteilt werden. Wenn Tiefeninformationen verfügbar sind, können weniger Artefakte von unzusammenpassenden Pixeln auftreten, wodurch der Prozess vereinfacht wird. Wie oben beschrieben, kann die Ansichtsinterpolation in einigen Ausführungsformen während der Erfassung einer MIDMR angewendet werden. In anderen Ausführungsformen kann die Sichtinterpolation während der MIDMR-Erzeugung angewendet werden.
In einigen Beispielen können Filter auch während der Erfassung oder Erzeugung einer MIDMR verwendet werden, um das Anzeigeerlebnis zu verbessern. So wie viele beliebte Foto-Sharing-Dienste ästhetische Filter zur Verfügung stellen, die auf statische, zweidimensionale Bilder angewendet werden können, können ästhetische Filter in ähnlicher Weise auf Umgebungsbilder angewendet werden. Da jedoch eine MIDMR Darstellung ausdrucksstärker als ein zweidimensionales Bild ist, und dreidimensionale Informationen in einer MIDMR verfügbar sind, können diese Filter erweitert werden, um Effekte zu umfassen, die in einem zweidimensionalen Foto schlecht definiert sind. Zum Beispiel in einer MIDMR kann Bewegungsunschärfe in den Hintergrund (d. h. Kontext) hinzugefügt werden, während der Inhalt scharf bleibt. In einem anderen Beispiel kann dem Objekt von Interesse in einer MIDMR ein Schlagschatten hinzugefügt werden.
In verschiedenen Beispielen kann eine Komprimierung auch als Verbesserungsalgorithmus 116 verwendet werden. Insbesondere kann die Komprimierung durch Reduzierung der Kosten für das Hochladen und Herunterladen von Daten zur Verbesserung der Benutzererfahrung verwendet werden. Da MIDMRs räumliche Informationen verwenden, können wesentlich weniger Daten für eine MIDMR gesendet werden, als bei einem typischen Video, während die gewünschten Eigenschaften der MIDMR erhalten bleiben. Insbesondere können die IMU, die Schlüsselpunktspuren und die Benutzereingaben in Kombination mit der oben beschriebenen Ansichtsinterpolation die Datenmenge reduzieren, die während des Uploads oder Downloads einer MIDMR zu und von einer Vorrichtung übertragen werden muss. Wenn zum Beispiel ein Objekt von Interesse korrekt identifiziert werden kann, kann ein variabler Komprimierungsstil für den Inhalt und Kontext gewählt werden. Dieser variable Komprimierungsstil kann in einigen Beispielen eine niedrigere Qualitätsauflösung für Hintergrundinformationen (z. B. Kontext) und eine höhere Auflösung für Vordergrundinformationen (d. h. Inhalt) enthalten. In solchen Beispielen kann die übertragene Datenmenge reduziert werden, indem Kontextqualität geopfert wird, während ein gewünschtes Qualitätsniveau für den Inhalt beibehalten wird.
In der vorliegenden Ausführungsform wird eine MIDMR 118 erzeugt, nachdem Verbesserungsalgorithmen angewendet werden. In verschiedenen Beispielen kann die MIDMR ein dreidimensionales Modell des Inhalts und ein zweidimensionales Modell des Kontexts enthalten. In einigen Beispielen kann der Kontext jedoch eine „flache“ Ansicht der Szenerie oder des Hintergrunds darstellen, wenn diese entlang einer Oberfläche, wie z. B. einer zylindrischen oder anders geformten Oberfläche, projiziert wird, so dass der Kontext nicht rein zweidimensional ist. In noch anderen Beispielen kann der Kontext dreidimensionale Aspekte enthalten.
Gemäß verschiedenen Ausführungsformen bieten MIDMRs zahlreiche Vorteile gegenüber herkömmlichen zweidimensionalen Bildern oder Videos. Einige dieser Vorteile umfassen: die Fähigkeit, sich bewegende Szenerien, eine sich bewegende Erfassungsvorrichtung oder beides zu nutzen; die Fähigkeit, Teile der Szene dreidimensional zu modellieren; die Möglichkeit, unnötige, redundante Informationen zu entfernen und den Speicherbedarf des Ausgabedatensatzes zu reduzieren; die Fähigkeit, zwischen Inhalt und Kontext zu unterscheiden; die Fähigkeit, die Unterscheidung zwischen Inhalt und Kontext zur Verbesserung der Benutzererfahrung zu nutzen; die Fähigkeit, die Unterscheidung zwischen Inhalt und Kontext zur Verbesserung des Speicherbedarfs zu nutzen (ein Beispiel wäre die Komprimierung von Inhalten mit hoher Qualität und die Komprimierung von Inhalten mit niedriger Qualität); die Fähigkeit, MIDMRs mit speziellen Funktionsbeschreibungen zu verknüpfen, die es ermöglichen, die MIDMRs mit einem hohen Maß an Effizienz und Genauigkeit zu indizieren; und die Fähigkeit des Benutzers, zu interagieren und den Sichtpunkt der MIDMR zu ändern. In bestimmten beispielhaften Ausführungsformen können die oben beschriebenen Eigenschaften nativ in die MIDMR- Darstellung einbezogen werden und bieten die Fähigkeit zur Verwendung in verschiedenen Anwendungen. Zum Beispiel können MIDMRs zur Verbesserung verschiedener Bereiche wie E-Commerce, visuelle Suche, 3D-Druck, Dateifreigabe, Benutzerinteraktion und Unterhaltung verwendet werden.
Nach verschiedenen beispielhaften Ausführungsformen kann, sobald eine MIDMR 118 erzeugt wurde, eine Benutzerrückmeldung zur Erfassung 120 zusätzlicher Bilddaten bereitgestellt werden. Wenn bestimmt wird, dass eine MIDMR zusätzliche Ansichten benötigt, um ein genaueres Modell des Inhalts oder Kontexts bereitzustellen, kann ein Benutzer aufgefordert werden, zusätzliche Ansichten bereitzustellen. Sobald diese zusätzlichen Ansichten von dem MIDMR-Erfassungssystem 100 empfangen werden, können diese zusätzlichen Ansichten von dem System 100 verarbeitet und in die MIDMR integriert werden.
Mit Bezug auf 2 wird ein Beispiel eines Prozessablaufdiagramms zum Erzeugen einer MIDMR 200 dargestellt. In dem vorliegenden Beispiel wird bei 202 mehrere Bilder erhalten. Gemäß verschiedenen Ausführungsformen kann die Vielzahl von Bildern zweidimensionale (2D) Bilder oder Datenströme enthalten. Diese 2D-Bilder können Standortinformationen enthalten, die zum Erzeugen einer MIDMR verwendet werden können. In einigen Ausführungsformen kann die Vielzahl von Bildern Tiefenbilder 108 enthalten, wie auch oben mit Bezug auf 1 beschrieben. Die Tiefenbilder können in verschiedenen Beispielen auch Ortsinformationen enthalten.
Gemäß verschiedener Ausführungsformen kann die Vielzahl von Bildern, die bei 202 erhalten werden, eine Vielzahl von Quellen und Eigenschaften enthalten. Beispielsweise können die mehreren Bilder von mehreren Benutzern erhalten werden. Diese Bilder können eine Sammlung von Bildern sein, die aus dem Internet von verschiedenen Benutzern desselben Ereignisses gesammelt wurden, wie z. B. 2D-Bilder oder Videos, die bei einem Konzert erhalten wurden, usw. In einigen Beispielen kann die Vielzahl von Bildern Bilder mit verschiedenen zeitlichen Informationen enthalten. Insbesondere können die Bilder zu unterschiedlichen Zeiten desselben Objekts von Interesse aufgenommen werden. Zum Beispiel können mehrere Bilder einer bestimmten Statue zu verschiedenen Tageszeiten, zu unterschiedlichen Jahreszeiten usw. erhalten werden. Bei anderen Beispielen können die mehreren Bilder sich bewegende Objekte darstellen. Zum Beispiel können die Bilder ein Objekt von Interesse enthalten, das sich durch eine Szenerie bewegt, wie beispielsweise ein Fahrzeug, das eine Straße entlang fährt, oder ein Flugzeug, das durch den Himmel fliegt. In anderen Fällen können die Bilder ein Objekt von Interesse enthalten, das sich ebenfalls bewegt, wie zum Beispiel eine Person, die tanzt, rennt, sich dreht usw.
In der vorliegenden beispielhaften Ausführungsform werden die mehreren Bilder bei 204 in Inhalts- und Kontextmodellen verschmolzen. Nach verschiedenen Ausführungsformen kann der Gegenstand der Bilder in Inhalt und Kontext unterschieden werden. Der Inhalt kann als das Objekt von Interesse abgegrenzt werden, und der Kontext kann als die Umgebung definiert werden, die das Objekt von Interesse umgibt. Nach verschiedenen Ausführungsformen kann der Inhalt ein dreidimensionales Modell sein, das ein Objekt von Interesse darstellt, und der Inhalt kann in einigen Ausführungsformen ein zweidimensionales Bild sein.
Nach der vorliegenden beispielhaften Ausführungsform können ein oder mehrere Verbesserungsalgorithmen in 206 auf die Inhalts- und Kontextmodelle angewendet werden. Diese Algorithmen können verwendet werden, um die Benutzererfahrung zu verbessern. Beispielsweise können automatische Bildauswahl, Stabilisierung, Ansichtsinterpolation, Filter und/oder Komprimierung verwendet werden. In einigen Beispielen können diese Verbesserungsalgorithmen während der Erfassung der Bilder auf Bilddaten angewendet werden. In anderen Beispielen können diese Verbesserungsalgorithmen nach der Erfassung der Daten auf Bilddaten angewendet werden.
In der vorliegenden Ausführungsform wird eine MIDMR in 208 aus den Inhalts- und Kontextmodellen erzeugt. In verschiedenen Beispielen kann die MIDMR ein dreidimensionales Modell des Inhaltes und ein zweidimensionales Modell des Kontexts enthalten. Nach verschiedenen Ausführungsformen kann das MIDMR-Modell in Abhängigkeit von dem Erfassungsmodus und den Sichtpunkten der Bilder bestimmte Eigenschaften enthalten. Einige Beispiele für verschiedene MIDMR-Stile umfassen beispielsweise eine lokal konkave MIDMR, eine lokal konvexe MIDMR und eine lokal flache MIDMR. Es sollte jedoch beachtet werden, dass MIDMRs je nach Anwendung Kombinationen von Ansichten und Merkmalen enthalten können.
Mit Verweis auf 3 ist ein Beispiel für mehrere Kameraansichten dargestellt, die zu einem dreidimensionalen (3D) Modell zusammengefügt werden können, um ein immersives Erlebnis zu schaffen. Nach verschiedenen Ausführungsformen können mehrere Bilder aus verschiedenen Sichtpunkten erfasst und zusammengefügt werden, um eine MIDMR bereitzustellen. In der vorliegenden beispielhaften Ausführungsform sind drei Kameras 312, 314 und 316 an den Stellen 322, 324 bzw. 326, in der Nähe zu einem Objekt von Interesse 308 positioniert. Die Szenerie kann das Objekt von Interesse 308, wie beispielsweise Objekt 310, umgeben. Ansichten 302, 304 und 306 von ihren jeweiligen Kameras 312, 314 und 316 enthalten überlappende Gegenstände. Insbesondere enthält jede Ansicht 302, 304 und 306 das Objekt von Interesse 308 und unterschiedliche Sichtbarkeitsgrade der das Objekt 310 umgebenden Szenerie. Beispielsweise umfasst die Ansicht 302 eine Ansicht des Objekts von Interesse 308 vor dem Zylinder, der Teil der Szenerie ist, die das Objekt 310 umgibt. Die Ansicht 306 illustriert das Objekt von Interesse 308 auf einer Seite des Zylinders, und die Ansicht 304 illustriert das Objekt von Interesse ohne Sicht auf den Zylinder.
In der vorliegenden beispielhaften Ausführungsform stellen die verschiedenen Ansichten 302, 304 und 316 zusammen mit ihren zugehörigen Orten 322, 324 und 326 jeweils eine reiche Quelle von Informationen über das Objekt von Interesse 308 und den umgebenden Kontext bereit, die verwendet werden kann, um eine MIDMR zu erzeugen. Bei einer gemeinsamen Analyse stellen die verschiedenen Ansichten 302, 304 und 326 beispielsweise Informationen über verschiedene Seiten des Objekts von Interesse und die Beziehung zwischen dem Objekt von Interesse und der Szenerie bereit. Nach verschiedenen Ausführungsformen kann diese Information verwendet werden, um das Objekt von Interesse 308 in den Inhalt und die Szenerie als Kontext zu parsen. Ferner können, wie ebenfalls oben mit Bezug auf 1 und 2 beschrieben ist, verschiedene Algorithmen auf Bilder angewendet werden, die durch diese Sichtpunkte erzeugt werden, um eine immersive, interaktive Erfahrung bei der Betrachtung einer MIDMR zu ermöglichen.
4A illustriert ein Beispiel für die Trennung von Inhalt und Kontext in einer MIDMR. Nach verschiedenen Ausführungsformen der vorliegenden Offenbarung ist eine MIDMR eine Darstellung einer Szene 400. Mit Bezug auf 4A ist ein Benutzer 402 dargestellt, der sich in einer Szene 400 befindet. Der Benutzer 402 befindet sich Bilder eines Objekts von Interesse, wie etwa einer Statue. Die vom Benutzer aufgenommenen Bilder stellen digitale visuelle Daten dar, die zur Erzeugung einer MIDMR verwendet werden können.
Nach verschiedenen Ausführungsformen der vorliegenden Offenbarung können die digitalen Bilddaten, die in einer MIDMR enthalten sind, semantisch und/oder praktisch in Inhalt 404 und Kontext 406 unterteilt werden. Nach bestimmten Ausführungsformen kann der Inhalt 404 ein oder mehrere Objekt(e), eine oder mehrere Person(en) oder eine oder mehrere Szene(n) von Interesse umfassen, während der Kontext 406 die übrigen Elemente der Szene darstellt, die den Inhalt 404 umgeben. In einigen Beispielen kann eine MIDMR den Inhalt 404 als dreidimensionale Daten und dem Kontext 406 als ein zweidimensionalen Panoramahintergrund darstellen. In anderen Beispielen kann eine MIDMR sowohl den Inhalt 404 als auch den Kontext 406 als zweidimensionale Panoramaszenen darstellen. In noch weiteren Beispielen können Inhalt 404 und Kontext 406 dreidimensionale Komponenten oder Aspekte enthalten. In bestimmten Ausführungsformen ist die Art und Weise, auf welche die MIDMR Inhalt 404 und Kontext 406 darstellt,abhängig von dem Aufnahmemodus, der verwendet wurde, um die Bilder zu aufzunehmen.
In einigen Beispielen, wie etwa, aber nicht beschränkt auf: Aufnahmen von Objekten, Personen oder Teilen von Objekten oder Personen, bei denen nur das Objekt, der Person oder Teile davon sichtbar sind, Aufzeichnungen von großen ebenen Flächen und Aufzeichnungen von Szenen, bei denen die erfassten Daten in der unendlichen Entfernung zu sein scheinen (d. h. es gibt keine Objekte in der Nähe der Kamera), können der Inhalt 404 und der Kontext 406 gleich sein. In diesen Beispielen kann die erzeugte MIDMR einige Eigenschaften aufweisen, die anderen Arten digitaler Medien wie Panoramen ähnlich sind. Nach verschiedenen Ausführungsformen enthalten MIDMRs weitere Merkmale, die sie von diesen bestehenden Arten digitaler Medien unterscheiden. Eine MIDMR kann etwa sich bewegende Daten darstellen. Weiterhin ist eine MIDMR nicht auf eine bestimmte zylindrische, sphärische oder translatorische Bewegung beschränkt. Mit verschiedenen Bewegungen können Bilddaten mit einer Kamera oder einer anderen Aufnahmevorrichtung erfasst werden. Im Gegensatz zu einem zusammengefügten Panorama kann eine MIDMR verschiedene Seiten desselben Objekts darstellen.
Obwohl eine MIDMR in einigen Anwendungen in Inhalt und Kontext aufgeteilt werden kann, kann eine MIDMR in anderen Anwendungen auch in Lagen aufgeteilt werden. Mit Verweis auf 4B ist ein Beispiel der Lagen in einer MIDMR gezeigt. In diesem Beispiel ist eine mehrlagige MIDMR 410 in verschiedene Lagen 418, 420 und 422 segmentiert. Jede Lage 418, 420 und 422 kann ein Objekt (oder einen Satz von Objekten), Personen, dynamische Szenenelemente, Hintergrund usw. enthalten. Außerdem kann jeder dieser Lagen 418, 420 und 422 eine Tiefe zugewiesen werden.
Bei verschiedenen Ausführungsformen können die verschiedenen Lagen 418, 420 und 422 auf verschiedene Weise dargestellt werden. Beispielsweise können auf einige Lagen verschiedene Filter (z. B. Graustufenfilter, Unschärfe usw.) angewendet werden, nicht jedoch auf andere. In anderen Beispielen können verschiedene Lagen mit unterschiedlicher Geschwindigkeit relativ zueinander bewegt werden, sodass, wenn ein Benutzer durch die MIDMR wischt, eine bessere dreidimensionale Wirkung bereitgestellt wird. In ähnlicher Weise kann, wenn ein Benutzer entlang der Parallaxen-Richtung wischt, die Lage unterschiedlich verschoben werden, um eine bessere dreidimensionale Wirkung bereitzustellen. Außerdem können eine oder mehrere Lagen bei der Anzeige einer MIDMR weggelassen werden, sodass unerwünschte Objekte usw. aus einer MIDMR entfernt werden können.
Im vorliegenden Beispiel ist ein Benutzer 412 dargestellt, der eine Erfassungsvorrichtung 414 hält. Der Benutzer 412 bewegt die Erfassungsvorrichtung 414 entlang der Erfassungsbewegung 416. Wenn die aufgenommenen Bilder verwendet werden, um eine MIDMR zu erzeugen, werden Lagen 418, 420, und 422 nach Tiefe getrennt. Diese Lagen können dann je nach Anwendung in einer MIDMR unterschiedlich verarbeitet oder betrachtet werden.
Mit Verweis auf 4C, ist ein Beispiel eines Prozesses zum Erzeugen einer MIDMR mit einer modifizierten Lage in einer MIDMR 430 dargestellt. Insbesondere wird bei 432 eine erste MIDMR mit einer ersten Lage und einer zweiten Lage erhalten. Wie oben mit Bezug auf 4B beschrieben, kann eine MIDMR in verschiedene Lagen unterteilt sein. In dem vorliegenden Beispiel umfasst die erste Lage eine erste Tiefe und die zweite Lage eine zweite Tiefe.
Als nächstes wird die erste Lage bei 434 gewählt. Nach verschiedenen Beispielen enthält die Auswahl der ersten Lage die Auswahl von Daten innerhalb der ersten Tiefe. Insbesondere umfasst das Auswählen von Daten innerhalb der ersten Tiefe das Auswählen der visuellen Daten, die sich innerhalb der ersten Tiefe befinden. Nach verschiedenen Ausführungsformen kann die erste Lage Merkmale enthalten, wie z. B. ein Objekt, eine Person, dynamische Szenenelemente, Hintergrund usw. In einigen Beispielen wird die Auswahl der ersten Lage automatisch ohne Benutzereingabe ausgeführt. In anderen Beispielen wird die Auswahl der ersten Lage halbautomatisch unter Verwendung einer benutzergeführten Interaktion durchgeführt.
Nachdem die erste Lage ausgewählt wird, wird ein Effekt auf die erste Lage innerhalb der ersten MIDMR angewendet, um bei 436 eine modifizierte erste Lage zu erzeugen. In einem Beispiel kann der angewendete Effekt ein Filter wie beispielsweise ein Verwischfilter, Graustufenfilter usw. sein. In einem anderen Beispiel kann der angewendete Effekt das Bewegen der ersten Lage mit einer ersten Geschwindigkeit relativ zu der zweiten Lage umfassen, die mit einer zweiten Geschwindigkeit bewegt wird. Wenn sich die erste Geschwindigkeit von der zweiten Geschwindigkeit unterscheidet, können dreidimensionale Effekte in einigen Fällen verbessert werden. In einigen Anwendungen kann ein Parallaxeneffekt auftreten, wodurch ein dreidimensionaler Effekt erzeugt wird.
Als nächstes wird bei 438 eine zweite MIDMR erzeugt, die die modifizierte erste Lage und die zweite Lage enthält. Wie oben beschrieben, kann das Anwenden eines oder mehrerer Effekte auf die erste Lage die dreidimensionalen Effekte einer MIDMR in einigen Anwendungen verbessern. Bei diesen Anwendungen kann die zweite MIDMR im Vergleich zur ersten MIDMR dreidimensionale Effekte aufweisen. Andere Effekte können in verschiedenen Beispielen angewendet werden und können verschiedene Aspekte einer ersten MIDMR betonen oder abschwächen, um eine zweite MIDMR zu erhalten. Weiterhin kann in einigen Anwendungen eine Lage in einer zweiten MIDMR weggelassen werden. Insbesondere dann, wenn die erste MIDMR eine dritte Lage umfasst, lässt die zweite MIDMR diese dritte Lage aus. In einem Beispiel kann diese dritte Lage ein Objekt oder eine Person enthalten, das/die in dem erzeugten zweiten MIDMR „wegbearbeitet“ würde. In einem anderen Beispiel kann diese dritte Lage einen Hintergrund oder Hintergrundelemente enthalten, und die zweite erzeugte MIDMR enthält den Hintergrund oder Hintergrundelemente nicht. Natürlich kann sich in dieser ausgelassenen dritten Lage abhängig von der Anwendung jedes Objekt oder Merkmal befinden.
5A bis 5B illustrieren Beispiele der konkaven bzw. konvexen Ansichten, wobei beide Ansichten einen Rückseitenkameraerfassungsstil verwenden. Insbesondere wenn ein Kameratelefon verwendet wird, verwenden diese Ansichten die Kamera auf der Rückseite des Telefons, die vom Benutzer weg zeigt. In bestimmten Ausführungsformen können konkave und konvexe Ansichten beeinflussen, wie der Inhalt und Kontext in einer MIDMR bezeichnet werden.
Mit Verweis auf 5A, ist ein Beispiel einer konkaven Ansicht 500 dargestellt, in der ein Benutzer entlang einer vertikalen Achse 508 steht. In diesem Beispiel hält der Benutzer eine Kamera, sodass der Kameraposition 502 die Achse 508 während der Bilderfassung nicht verlässt. Wenn der Benutzer jedoch um die Achse 508 schwenkt, erfasst die Kamera eine Panoramaansicht der Szene um den Benutzer herum und bildet eine konkave Ansicht. In dieser Ausführungsform werden das Objekt von Interesse 504 und die entfernte Szenerie 506 aufgrund der Art und Weise, in der die Bilder aufgenommen werden, alle ähnlich betrachtet. In diesem Beispiel werden alle Objekte in der konkaven Ansicht mit unendlich dargestellt, sodass der Inhalt dem Kontext entsprechend dieser Ansicht entspricht.
Mit Verweis auf 5B, ist ein Beispiel einer konvexen Ansicht 520 dargestellt, in der ein Benutzer die Position ändert, wenn Bilder eines Objekts von Interesse 524 aufgenommen werden. In diesem Beispiel bewegt sich der Benutzer um das Objekt von Interesse 524 und nimmt Bilder von verschiedenen Seiten des Objekts von Interesse aus Kamerapositionen 528, 530 und 532 auf. Jedes der erhaltenen Bilder enthält eine Sicht auf das Objekt von Interesse und einen Hintergrund der entfernten Szenerie 526. In dem vorliegenden Beispiel stellt das Objekt von Interesse 524 den Inhalt dar und die entfernte Szenerie 526 stellt den Kontext in dieser konvexen Ansicht dar.
6A bis 6E veranschaulichen Beispiele verschiedener Erfassungsmodi für MIDMRs. Obwohl verschiedene Bewegungen verwendet werden können, um eine MIDMR zu erfassen, und sie nicht auf eine bestimmte Art der Bewegung eingeschränkt sind, können drei allgemeine Arten von Bewegung verwendet werden, um bestimmte Funktionen oder Ansichten zu erfassen, die in Verbindung mit MIDMRs beschrieben sind. Diese drei Bewegungsarten können jeweils eine lokal konkave MIDMR, eine lokal konvexe MIDMR und eine lokal flache MIDMR ergeben. In einigen Beispielen kann eine MIDMR verschiedene Bewegungsarten innerhalb derselben MIDMR enthalten.
Mit Verweis auf 6A ist ein Beispiel für die Aufnahme einer nach hinten weisenden konkaven MIDMR dargestellt. Nach verschiedenen Ausführungsformen handelt es sich bei einer lokal konkaven MIDMR um eine, bei der die Sichtwinkel der Kamera oder anderer Erfassungsvorrichtungen auseinanderlaufen. In einer Dimension kann dies mit der Bewegung verglichen werden, die zum Erfassen eines sphärischen 360-Panoramas (reine Drehung) erforderlich ist, obwohl die Bewegung auf jede gekrümmte Ablenkbewegung verallgemeinert werden kann, bei der die Ansicht nach außen weist. Im vorliegenden Beispiel handelt es sich um die Erfahrung eines stationären Betrachters, der einen (möglicherweise dynamischen) Kontext betrachtet.
Bei der vorliegenden beispielhaften Ausführungsform kann ein Benutzer 602 ein nach hinten weisende Kamera 606 verwenden, um Bilder in Richtung Welt 600 und von Benutzer 602 weg weisend zu erfassen. Wie in den verschiedenen Beispielen beschrieben wird, bezieht sich eine nach hinten weisende Kamera auf eine Vorrichtung mit einer Kamera, die vom Benutzer weg weist, z. B. die Kamera auf der Rückseite eines Smartphones. Die Kamera wird in einer konkaven Bewegung 608 bewegt, sodass die Ansichten 604a, 604b und 604c verschiedene Teile des Erfassungsbereichs 609 erfassen.
Mit Verweis auf 6B ist ein Beispiel für die Aufnahme einer nach hinten weisenden konvexen MIDMR dargestellt. Nach verschiedenen Ausführungsformen handelt es sich bei einer lokal konvexen MIDMR um eine, bei der Sichtwinkel zu einem einzelnen Objekt von Interesse hin zusammenlaufen. In einigen Beispielen kann eine ein lokal konvexe MIDMR die Erfahrung bereitstellen, einen Punkt zu umkreisen, sodass ein Betrachter mehrere Seiten des gleichen Objekts sehen kann. Dieses Objekt, das ein „Objekt von Interesse“ sein kann, kann aus dem MIDMR segmentiert werden, um den Inhalt zu bilden, und alle umgebenden Daten können segmentiert werden, um den Kontext zu bilden. Bisherige Technologien erkennen diesen Sichtwinkel in der Medienfreigabelandschaft nicht.
Bei der vorliegenden beispielhaften Ausführungsform kann ein Benutzer 602 ein nach hinten weisende Kamera 614 verwenden, um Bilder in Richtung Welt 600 und von Benutzer 602 weg weisend zu erfassen. Die Kamera wird in einer konvexen Bewegung 610 bewegt, sodass die Ansichten 612a, 612b und 612c verschiedene Teile des Erfassungsbereichs 611 erfassen. Wie oben beschrieben, kann die Welt 600 in einigen Beispielen ein Objekt von Interesse enthalten, und die konvexe Bewegung 610 kann dieses Objekt umkreisen. Die Ansichten 612a, 612b und 612c können in diesen Beispielen Ansichten von verschiedenen Seiten dieses Objekts enthalten.
Mit Verweis auf 6C ist ein Beispiel für die Aufnahme einer nach vorne weisenden konkaven MIDMR dargestellt. Wie in den verschiedenen Beispielen beschrieben wird, bezieht sich eine nach vorne weisende Kamera auf eine Vorrichtung mit einer Kamera, die zum Benutzer hin weist, z. B. die Kamera auf der Vorderseite eines Smartphones. Zum Beispiel werden Frontkameras üblicherweise verwendet, um „Selfies“ (d. h. Selbstportraits des Benutzers) aufzunehmen.
Bei der vorliegenden beispielhaften Ausführungsform weist die Kamera 620 zu dem Benutzer 602. Die Kamera folgt einer konkave Bewegung 606 so, dass die Ansichten 618a, 618b und 618c voneinander in einem Winkel abweichen. Der Erfassungsbereich 617 folgt einer konkaven Form, die den Benutzer an einem Umfang einschließt.
Mit Verweis auf 6D ist ein Beispiel für die Aufnahme einer nach vorne weisenden konvexen MIDMR dargestellt. Bei der vorliegenden beispielhaften Ausführungsform weist die Kamera 626 zu dem Benutzer 602. Die Kamera folgt einer konvexe Bewegung 622 so, dass die Ansichten 624a, 624b und 624c zum Benutzer 602 hin aufeinander zu laufen. Der Erfassungsbereich 617 umgibt eine konkave Form, die den Benutzer 602 umgibt.
Mit Verweis auf 6E ist ein Beispiel für die Aufnahme einer nach hinten weisenden flachen Ansicht dargestellt. In bestimmten beispielhaften Ausführungsformen handelt es sich bei einer lokal flachen MIDMR um eine, bei der die Drehung der Kamera mit ihrer Verschiebung verglichen gering ist. Bei einer lokal flachen MIDMR bleiben die Sichtwinkel in etwa parallel und der Parallaxeneffekt dominiert. Bei dieser Art von MIDMR, kann ebenfalls ein „Objekt von Interesse“ vorhanden sein, aber seine Position bleibt in den verschiedenen Ansichten nicht festgelegt. Bisherige Technologien erkennen diese Art des Betrachtungswinkels in der Medienfreigabelandschaft ebenfalls nicht.
Bei der vorliegenden beispielhaften Ausführungsform weist die Kamera 632 vom Benutzer 602 weg und zur Welt 600. Die Kamera folgt eine im Allgemeinen einer linearen Bewegung 628 so, dass der Aufnahmebereich 629 im Allgemeinen einer Linie folgt. Die Ansichten 630a, 630b und 630c haben im Allgemeinen parallele Sichtlinien. Ein in mehreren Ansichten dargestelltes Objekt kann in jeder Ansicht eine andere oder verschobene Hintergrundszene aufweisen. Weiterhin kann eine etwas andere Seite des Objekts in verschiedenen Ansichten sichtbar sein. Mit Hilfe des Parallaxeneffekts können Informationen zu Position und Eigenschaften des Objekts in einer MIDMR erzeugt werden, der mehr Informationen als ein statisches Bild liefert.
Wie oben beschrieben, können verschiedene Modi verwendet werden, um Bilder für eine MIDMR zu erfassen. Diese Modi, einschließlich lokal konkaver, lokal konvexer und lokal linearer Bewegungen, können während der Aufnahme separater Bilder oder während der kontinuierlichen Aufnahme einer Szene verwendet werden. Eine solche Aufnahme kann eine Serie von Bildern während einer einzelnen Sitzung aufnehmen.
Nach verschiedenen Ausführungsformen der vorliegenden Offenbarung kann eine MIDMR aus in vielfältiger Weise erfassten Daten erzeugt werden. 7A illustriert ein Beispiel eines Prozesses zum Aufzeichnen von Daten, die zum Erzeugen einer MIDMR verwendet werden können. In diesem Beispiel werden Daten durch Bewegen einer Kamera durch den Weltraum erfasst. Insbesondere tippt ein Benutzer eine Aufzeichnungstaste 702 auf einer Erfassungsvorrichtung 700, um mit der Aufzeichnung zu beginnen. Wenn die Bewegung der Erfassungsvorrichtung 716 im Allgemeinen nach links verläuft, bewegt sich ein Objekt 714 in einer im Allgemeinen nach rechts gerichteten Bewegung über den Bildschirm, wie durch die Bewegung des Objekts 716 angezeigt wird. Insbesondere drückt der Benutzer in der Ansicht 708 die Aufnahmetaste 702 und bewegt dann die Erfassungsvorrichtung in Ansicht 710 nach links. Wenn sich die Erfassungsvorrichtung nach links bewegt, scheint sich das Objekt 714 zwischen den Ansichten 710 und 712 nach rechts zu bewegen. In einigen Beispielen kann die Aufnahmetaste 702 erneut betätigt werden, wenn der Benutzer die Aufzeichnung beendet hat. In anderen Beispielen kann der Benutzer die Aufnahmetaste während der Aufnahme antippen und halten und loslassen, um die Aufnahme zu stoppen. In der vorliegenden Ausführungsform erfasst die Aufzeichnung eine Reihe von Bildern, die zum Erzeugen einer MIDMR verwendet werden können.
Nach verschiedenen Ausführungsformen können unterschiedliche Typen von Panoramen in MIDMRs erfasst werden, abhängig von der Art der Bewegung, die in dem Erfassungsvorgang verwendet wird. Insbesondere können dynamische Panoramen, Objektpanoramen und Selfie-Panoramen auf den erfassten Daten basierend erstellt werden. In einigen Ausführungsformen können die erfassten Daten aufgezeichnet werden, wie mit Bezug auf 7A beschrieben.
7B bis 7F illustrieren Beispiele in Bezug auf dynamische Panoramen, die mit MIDMRs erstellt werden können. Mit besonderem Bezug auf 7B ist ein Beispiel eines dynamischen Panoramaerfassungsprozesses 720 dargestellt. In dem vorliegenden Beispiel bewegt ein Benutzer 722 die Erfassungsvorrichtung 724 entlang der Erfassungsbewegung 726. Diese Erfassungsbewegung 726 kann die Erfassungsvorrichtung 724 durch Drehen, Winken, Verschieben usw. enthalten. Während dieses Erfassungsvorgangs wird ein Panorama der Szene 728 erzeugt und dynamischer Inhalt innerhalb der Szene bleibt erhalten. Zum Beispiel bleiben bewegte Objekte im Panorama als dynamischer Inhalt erhalten.
Mit Verweis auf 7C ist ein spezifisches Beispiel eines dynamischen Panoramaerfassungsprozesses 730 dargestellt, bei dem eine Erfassungsvorrichtung 732 durch eine Rotationsachse 734 gedreht wird. Insbesondere wird die Erfassungseinrichtung 732 um ihre Mitte entlang einer Drehachse 734 gedreht. Diese reine Drehung erfasst ein Panorama der Szene 736. Nach verschiedenen Beispielen kann dieser Panoramatyp eine „flache“ Szene bereitstellen, die zu einem bestimmten Zeitpunkt Entitäten in der Szene erfasst. Diese „flache“ Szene kann ein zweidimensionales Bild oder ein auf einen Zylinder, eine Oberfläche usw. projiziertes Bild sein.
Mit Verweis auf 7D ist ein Beispiel eines dynamischen Panoramas 740 mit dynamischem Inhalt 744 dargestellt. Wenn ein Panorama aufgenommen wurde, wie oben mit Bezug auf 7B-7C beschrieben, kann ein Benutzer in einem dynamischen Panorama 740 navigieren. In dem vorliegenden Beispiel wird der dynamische Inhalt 744 animiert, wenn der Benutzer durch das dynamische Panorama 740 navigiert. Wenn der Benutzer beispielsweise über die Szene 742 wischt, kann gesehen werden, dass sich der dynamische Inhalt 744 in Bezug auf die Szene 742 bewegt.
Mit Verweis auf 7E ist ein Beispiel zum Erfassen eines dynamischen Panoramas mit einem 3D-Effekt gezeigt. Wenn im vorliegenden Beispiel ein Erfassungsvorrichtung nicht genau um ihre Kameramitte gedreht wird (wie in 7C), kann ein 3D-Effekt erhalten werden, indem verschiedene Teile des Panoramas mit unterschiedlichen Geschwindigkeiten bewegt werden, während der Benutzer durch den dynamischen Inhalt navigiert. Obwohl eine Person oder ein Objekt 750 in der Nähe in einem Standard-Panoramaerfassungsprozess Artefakte erzeugen würde, wenn die Erfassungsvorrichtung nicht um ihre Kameramitte gedreht wird (wie in 7C), können diese „Fehler“ verwendet werden, um dem Benutzer durch Bewegen des Objekts 750 mit einer anderen Geschwindigkeit beim Wischen/Navigieren durch ein dynamisches Panorama einen 3D-Eindruck zu vermitteln. Insbesondere verwendet die dargestellte Erfassungsvorrichtung 745 eine Erfassungsbewegung 748, die eine entfernte Szene 746 und eine Person/ein Objekt 750 in der Nähe erfasst. Die Bewegungen der Person/des Objekts 750 in der Nähe können nach verschiedenen Ausführungsformen als 3D-Bewegung in der MIDMR erfasst werden, während die entfernten Szenerie 746 statisch zu sein scheint, wenn der Benutzer durch die MIDMR navigiert.
Mit Verweis auf 7F, ist ein Beispiel eines dynamischen Panoramas 750 mit Parallaxeneffekt dargestellt. Dreidimensionale Effekte können durch Anwenden eines Parallaxeneffekts dargestellt werden, wenn im rechten Winkel zur Panoramarichtung 752 gewichtet wird. Insbesondere, wenn im rechten Winkel zu der Panoramarichtung entlang der Parallaxenrichtung 754 gewischt wird, werden Objekte in der Nähe entlang der Parallaxenrichtung 754 verschoben, während die entfernte Szene bleibt stehen oder sich weniger bewegt, als die Objekte in der Nähe.
7G-7J illustrieren Beispiele in Bezug auf Objektpanoramen, die mit MIDMRs erstellt werden können. Mit Verweis auf 7G ist ein Beispiel eines Objektpanoramaerfassungsprozesses dargestellt. Insbesondere wird eine Erfassungsvorrichtung 766 entlang einer Erfassungsbewegung 760 um ein Objekt 762 bewegt. Ein bestimmtes Beispiel einer Erfassungsvorrichtung 766 ist ein Smartphone. Die Erfassungsvorrichtung 766 erfasst auch eine Panoramaansicht des Hintergrunds 764, während verschiedene Ansichten und Winkel des Objekts 762 erfasst werden. Der resultierende MIDMR enthält eine Panoramaansicht des Objekts 762.
In einigen Ausführungsformen kann eine MIDMR durch Projizieren eines Objektpanoramas auf ein Hintergrundpanorama erzeugt werden, von denen ein Beispiel ist in 7H dargestellt. Insbesondere wird ein Panorama 768 dieser Art unter Verwendung von Hintergrundpanorama 770 und Projizieren eines Vordergrundobjektpanoramas 772 auf das Hintergrundpanorama 770 aufgebaut. In einigen Beispielen kann ein Objektpanorama segmentierter Inhalt sein, der aus einer MIDMR genommen wird, wie detaillierter mit Bezug auf 17A bis 17B beschrieben.
Nach verschiedenen Ausführungsformen können mehrere Objekte können ein Objektpanorama bilden. Mit Verweis auf 7I ist ein Beispiel eines Erfassungsprozesses für eine Gruppe von Objekten 780 dargestellt, die ein Objektpanorama bilden. Wie dargestellt, kann sich eine Erfassungsvorrichtung 776 um ein Vordergrundobjekt bewegen, bei dem es sich um ein einzelnes Objekt oder um eine Gruppe von Objekten 780 handeln kann, die sich in einem ähnlichen Abstand zu der Erfassungsvorrichtung befinden. Die Erfassungsvorrichtung 776 kann sich entlang einer Erfassungsbewegung 778 um das Objekt oder die Gruppe von Objekten 780 herum bewegen, sodass verschiedene Ansichten und Winkel das Objekte erfasst werden. Der resultierende MIDMR kann ein Objektpanorama der Gruppe von Objekten 780 mit entferntem Hintergrund 782 als Kontext enthalten.
Objektpanoramen ermöglichen Benutzern, nach verschiedenen Beispielen um das Objekt herum zu navigieren. Mit Verweis auf 7J ist ein Beispiel zum Ändern des Betrachtungswinkels eines Objektpanoramas basierend auf einer Benutzerführung dargestellt. In diesem Beispiel sind drei Ansichten eines MIDMR-Panoramas 784 dargestellt. In der MIDMR-Panorama ist ein Vordergrundobjekt 786 vor einem Hintergrundpanorama 788 dargestellt. Wenn ein Benutzer durch das Panorama navigiert, indem er wischt oder anderweitig mit dem MIDMR interagiert, können sich der Ort des Objekts, der Sichtwinkel auf das Objekt oder beide ändern. Im vorliegenden Beispiel kann der Benutzer in Richtung der Hauptpanorama-Achse wischen. Diese Navigation kann das Vordergrundobjekt 786 in dieser Ansicht drehen. In einigen Beispielen kann sich das Fernhintergrundpanorama 788 nicht ändern, wenn sich das Vordergrundobjektpanorama dreht oder sich auf andere Weise bewegt.
Nach verschiedenen Ausführungsformen können Objektpanoramen können auch Parallaxeneffekte umfassen. Diese Parallaxeneffekte sind zu sehen, wenn im rechten Winkel zur Richtung der Hauptpanorama-Achse gewischt/navigiert wird. Ähnlich wie in 7F können dreidimensionale Effekte dargestellt werden, wenn im rechten Winkel zur Panoramarichtung gewischt wird. Insbesondere, wenn im rechten Winkel zu der Panoramarichtung entlang der Parallaxenrichtung gewischt wird, werden Objekte in der Nähe entlang der Parallaxenrichtung verschoben, während die entfernte Szene bleibt stehen oder sich weniger bewegt, als die Objekte in der Nähe.
Obwohl die vorhergehenden Beispiele sich auf statischen Inhalt und Hintergrundkontext in Objektpanoramen beziehen, kann dynamischer Inhalt im Objektpanorama entweder für Vordergrundobjekt und/oder Hintergrundkontext integriert werden. Zum Beispiel kann dynamischer Inhalt auf ähnliche Weise dargestellt werden, wie dies in Verbindung mit 7D beschrieben wurde. Ähnlich kann auch dynamischer Kontext in Objektpanoramen eingeschlossen werden.
Eine andere Art von Panorama, die in MIDMRs eingeschlossen werden kann, ist ein Selfie-Panorama. In einigen Beispielen kann ein Selfie-Panorama aus einer MIDMR genommener segmentierter Inhalt sein, wie mit Bezug auf 17A bis 17B. 7K-7L zeigen Beispiele für Selfie-Panoramen, die mit MIDMRs erstellt werden können. Mit Verweis auf 7K ist ein Beispiel eines Selfie-Panoramaerfassungsprozesses 790 dargestellt. Insbesondere bewegt ein Benutzer 794 eine Erfassungsvorrichtung 792 entlang der Erfassungsbewegung 796, während Bilder des Benutzers 794 erfasst werden. In einigen Beispielen kann die Erfassungsvorrichtung 792 eine nach vorne gerichtete Kamera verwenden, wie z. B. eine auf einem Smartphone enthaltene Kamera. In anderen Beispielen kann eine Digitalkamera oder eine andere Bildaufzeichnungsvorrichtung verwendet werden. Mit diesen Bildern wird ein Selfie-Panorama erstellt, wobei der Hintergrund 798 den Kontext darstellt.
Mit Verweis auf 7L ist ein Beispiel eines Hintergrundpanoramas dargestellt, auf das ein Selfie-Panorama projiziert wird. Im vorliegenden Beispiel wird ein MIDMR-Panorama 723 aus einem Hintergrund mit einem Panorama 725 aufgebaut, auf das ein Selfie Panorama 721 projiziert wird. Nach verschiedenen Beispielen kann das Selfie-Panorama eine einzelne Person oder mehrere Personen umfassen, ähnlich dem Objekt oder der Gruppe von Objekten, die beschrieben ist in Verbindung mit 7I. Im vorliegenden Beispiel können Selfie-Panoramen dynamischen Inhalt enthalten. Zum Beispiel kann der Benutzer die Erfassungsvorrichtung betrachten, wenn sich die Erfassungsvorrichtung bewegt, oder der Benutzer kann bewegungslos bleiben, während er die Erfassungsvorrichtung bewegt. Die Bewegungen des Benutzers können erfasst werden, während das Selfie-Panorama 721 aufgezeichnet wird. Diese dynamischen Elemente werden in dem Panorama abgebildet und können angezeigt werden, während sie mit dem entstehenden Selfie-Panorama 721 interagieren. Zum Beispiel kann das Blinzeln des Benutzers aufgezeichnet und erfasst werden. Die Navigation des Selfie-Panoramas kann auf ähnliche Weise erfolgen wie in Verbindung mit 7J beschrieben. Insbesondere können der Ort und der Sichtpunkt der Person(en) im Selfie-Panorama 721 vom Benutzer durch Wischen/Navigieren in Richtung der Hauptpanorama-Achse geändert werden. Nach verschiedenen Ausführungsformen können Selfie-Panoramen 721 auch Parallaxeneffekte enthalten. Diese Parallaxeneffekte sind zu sehen, wenn im rechten Winkel zur Richtung der Hauptpanorama-Achse gewischt/navigiert wird. Außerdem, können ähnlich wie in 7F dreidimensionale Effekte dargestellt werden, wenn im rechten Winkel zur Panoramarichtung gewischt wird. Insbesondere, wenn im rechten Winkel zu der Panoramarichtung entlang der Parallaxenrichtung gewischt wird, werden Objekte in der Nähe entlang der Parallaxenrichtung verschoben, während die entfernte Szene bleibt stehen oder sich weniger bewegt, als die Objekte in der Nähe.
Wie oben beschrieben, können verschiedene Arten von Panoramen mit MIDMRs erstellt werden. Außerdem können MIDMRs auf verschiedene Arten angezeigt und navigiert werden. Mit Verweis auf 7M, ist ein Beispiel für erweiterte Ansichten von Panoramen dargestellt, die basierend auf der Benutzernavigation bereitgestellt werden. In dem vorliegenden Beispiel umfassen mögliche Ansichten 727 eine vollständige Panoramaansicht 729, Aufzeichnungsansichten 731 und erweiterte Ansicht 733. Eine vollständige Panoramaansicht 729 enthält eine vollständige Ansicht der Informationen in einer MIDMR. Die Aufzeichnungsansichten 731 umfassen die visuellen Daten, die in Bildern und/oder Aufnahmen erfasst werden. Die erweiterte Ansicht 733 zeigt in den Aufnahmeansichten 731 mehr als das, was während eines bestimmten Zeitpunktes sichtbar ist, aber weniger als die volle Panoramasicht 729. Der Teil des Panoramas 729, der in einer erweiterten Ansicht 733 sichtbar ist, wird durch die Benutzernavigation definiert. Eine erweiterte Ansicht 733 ist besonders für ein Selfie- oder Objektpanorama interessant, da die erweiterte Ansicht dem Objekt/der Person im Panorama folgt und eine größere Ansicht illustriert, als während der Aufnahme für die Kamera sichtbar war. Im Wesentlichen wird dem Benutzer in einer erweiterten Ansicht 733 während der Navigation der MIDMR mehr Kontext bereitgestellt.
Bei verschiedenen Ausführungsformen können, sobald eine Reihe von Bildern erfasst wird, diese Bilder verwendet werden, um eine MIDMR zu erzeugen. Mit Verweis auf 8 ist ein Beispiel einer MIDMR dargestellt, bei dem dreidimensionaler Inhalt mit einem zweidimensionalen Panoramakontext gemischt wird. In der vorliegenden beispielhaften Ausführungsform folgt die Bewegung der Erfassungsvorrichtung 820 einer lokal konvexen Bewegung, sodass sich die Erfassungsvorrichtung um das Objekt von Interesse (d. h. eine auf einem Stuhl sitzende Person) bewegt. Das Objekt von Interesse wird als Inhalt 808 bezeichnet, und die umgebende Szenerie (d. h. der Raum) wird als Kontext 810 beschrieben. In der vorliegenden Ausführungsform bewegt sich die Richtung der Bewegung der Erfassungsvorrichtung 820 nach links um den Inhalt 808 herum. Die Drehung des Inhalts relativ zu der Erfassungsvorrichtung 812 erfolgt gegen den Uhrzeigersinn nach rechts. Die Ansichten 802, 804 und 806 zeigen einen Fortschritt der Rotation der Person, die auf einem Stuhl sitzt, relativ zum Raum.
Bei verschiedenen Ausführungsformen kann eine Reihe von Bildern, die zum Erzeugen einer MIDMR verwendet wird, von einem Benutzer erfasst werden, der eine Szene, ein Objekt von Interesse usw. aufnimmt. Zusätzlich können in einigen Beispielen mehrere Benutzer beitragen, um eine Reihe von Bildern aufzunehmen, die verwendet werden, eine MIDMR zu erzeugen. Mit Verweis auf 9 wird ein Beispiel einer Raum-Zeit-MIDMR gezeigt, die gleichzeitig von unabhängigen Beobachtern aufgezeichnet wird.
Bei der vorliegenden beispielhaften Ausführungsform sind die Kameras 904, 906, 908, 910, 912 und 914 an verschiedenen Stellen positioniert. In einigen Beispielen können diese Kameras 904, 906, 908, 910, 912 und 914 unabhängigen Beobachtern zugeordnet werden. Zum Beispiel kann die unabhängigen Beobachter Zuschauer bei einem Konzert, einer Show, einem Event usw. sein. In anderen Beispielen können die Kameras 904, 906, 908, 910, 912 und 914 auf Stativen, Ständern usw. platziert werden. In der vorliegenden Ausführungsform werden die Kameras 904, 906, 908, 910, 912 und 914 verwendet, um jeweils Ansichten 904a, 906a, 908a, 910a, 912a und 914a eines Objekts von Interesse 900 aufzunehmen, wobei die Hintergrundszene der Welt 902 bereitgestellt wird. Die von den Kameras 904, 906, 908, 910, 912 und 914 aufgenommenen Bilder können in einigen Beispielen zusammengefasst und in einer einzigen MIDMR verwendet werden. Jede der Kameras 904, 906, 908, 910, 912 und 914 bietet einen anderen Sichtwinkel in Bezug auf das Objekt von Interesse 900, sodass das Sammeln der Bilder von diesen verschiedenen Orten Informationen über unterschiedliche Sichtwinkel auf das Objekt von Interesse 900 liefert. Außerdem können die Kameras 904, 906, 908, 910, 912 und 914 über einen Zeitraum eine Reihe von Bildern von ihren jeweiligen Orten aus bereitstellen, sodass die aus dieser Reihe von Bildern erzeugte MIDMR zeitliche Informationen enthalten kann und auch Bewegung im Laufe der Zeit darstellen kann.
Wie oben in Bezug auf verschiedene Ausführungsformen beschrieben kann eine MIDMR mit verschiedenen Erfassungsmodi verwendet werden. Außerdem kann eine MIDMR verschiedene Erfassungsmodi oder unterschiedliche Erfassungsbewegungen in derselben MIDMR enthalten. Dementsprechend können MIDMRs in einigen Beispielen in kleinere Teile aufgeteilt werden. Mit Verweis auf 10 ist ein Beispiel für die Aufteilung einer komplexen Rundumsicht in kleinere lineare Teile dargestellt. In dem vorliegenden Beispiel umfasst die komplexe MIDMR 1000 einen Erfassungsbereich 1026, der einer schwungvollen L-Bewegung folgt, die zwei separate lineare Bewegungen 1022 und 1024 der Kamera 1010 umfasst. Die mit diesen separaten linearen Bewegungen verbundenen MIDMRs können in lineare MIDMR 1002 und lineare MIDMR 1004 unterteilt werden. Es ist zu beachten, dass, obwohl die linearen Bewegungen 1022 und 1024 in einigen Ausführungsformen sequentiell und kontinuierlich erfasst werden können, diese linearen Bewegungen 1022 und 1024 in anderen Ausführungsformen auch in separaten Sitzungen erfasst werden können.
Bei der vorliegenden beispielhaften Ausführungsform können die lineare MIDMR 1002 und die lineare MIDMR 1004 unabhängig voneinander verarbeitet werden, und verbunden mit einem Übergang 1006 eine kontinuierliche Erfahrung für den Benutzer zur Verfügung zu stellen. Das Aufschlüsseln der Bewegung in kleinere lineare Komponenten auf diese Weise kann verschiedene Vorteile bieten. Beispielsweise kann das Aufschlüsseln dieser kleineren linearen Komponenten in einzelne, ladbare Teile die Komprimierung der Daten für Bandbreitenzwecke unterstützen. In ähnlicher Weise können nichtlineare MIDMRs auch in diskrete Komponenten getrennt werden. In einigen Beispielen können MIDMRs auf der lokalen Erfassungsbewegung basierend unterteilt werden. Zum Beispiel kann eine komplexe Bewegung in einen lokal konvexen Abschnitt und einen linearen Abschnitt unterteilt werden. In einem anderen Beispiel kann eine komplexe Bewegung in separate lokal konvexe Abschnitte unterteilt werden. Es sollte erkannt werden, dass abhängig von der Anwendung eine beliebige Anzahl von Bewegungen in einem komplexen MIDMR 1000 enthalten sein kann und dass ein komplexer MIDMR 1000 in eine beliebige Anzahl von getrennten Abschnitten unterteilt werden kann.
Obwohl es in einigen Anwendungen wünschenswert ist, komplexe MIDMRs zu trennen, ist es in anderen Anwendungen wünschenswert, mehrere MIDMRs zu kombinieren. Mit Verweis auf 11 ist ein Beispiel eines Graphen dargestellt, das mehre MIDMRs enthält, die in eine Multi-MIDMR 1100 kombiniert sind. In diesem Beispiel stellen die Rechtecke verschiedene MIDMRs 1102, 1104, 1106, 1108, 1110, 1112, 1114 und 1116 dar, und die Länge jedes Rechtecks gibt die dominante Bewegung jeder MIDMR an. Linien zwischen die MIDMRs geben mögliche Übergänge 1118, 1120, 1122, 1124, 1126, 1128, 1130 und 1132 zwischen ihnen an.
In einigen Beispielen kann eine MIDMR eine Möglichkeit bieten, eine Szene sowohl räumlich als auch zeitlich auf sehr effiziente Art und Weise zu unterteilen. Für sehr große Szenen können Multi-MIDMR 1100 Daten verwendet werden. Insbesondere ein Multi-MIDMR 1100 kann eine Sammlung von MIDMRs enthalten, die zusammen in einer räumlichen Kurve verbunden sind. Die einzelnen MIDMRs können von einer einzigen Quelle, beispielsweise einem einzelnen Benutzer, oder von mehreren Quellen, beispielsweise mehreren Benutzern, erfasst werden. Weiterhin können die einzelnen MIDMRs nacheinander, parallel oder völlig unzusammenhängend zu unterschiedlichen Zeitpunkten erfasst werden. Um die einzelnen MIDMRs zu verbinden, muss es eine gewisse Überlappung von Inhalt, Kontext oder Ort, oder eine Kombination dieser Merkmale geben. Dementsprechend müssten zwei MIDMRs eine gewisse Überlappung in Inhalt, Kontext und/oder Ort aufweisen, um einen Teil eines Multi-MIDMR 1100 bereitzustellen. Einzelne MIDMRs können miteinander durch diese Überlappung verbunden werden und zusammengesetzt werden, um eine multi-MIDMR 1100 zu bilden. Nach verschiedenen Beispielen kann eine beliebige Kombination von Erfassungsvorrichtungen mit Vorder-, Rück- oder Vorder- und Rückkamera verwendet werden.
In einigen Ausführungsformen können Multi-MIDMRs 1100 verallgemeinert werden, um gesamten Umgebungen vollständiger zu erfassen. Ähnlich wie „Fototouren“ Fotos von diskreten, räumlich benachbarten Komponenten sammeln, können mehrere MIDMRs in eine ganze Szenenkurve kombiniert werden. In einigen Beispielen kann dies unter Verwendung von Informationen erreicht werden, die erhalten werden aus, aber nicht beschränkt auf: Bildanpassung/-verfolgung, Tiefenanpassung/-verfolgung, IMU, Benutzereingabe und/oder GPS. Innerhalb einer solchen Kurve oder Multi-MIDMR kann ein Benutzer zwischen verschiedenen MIDMRs umschalten, entweder an den Endpunkten der aufgezeichneten Bewegung oder an Stellen, an denen sich andere MIDMRs in der Kurve überschneiden. Ein Vorteil von Multi-MIDMRs gegenüber „Fototouren“ besteht darin, dass ein Benutzer die MIDMRs nach Belieben navigieren kann und viel mehr visuelle Informationen in MIDMRs gespeichert werden können. Im Gegensatz dazu haben herkömmliche „Fototouren“ normalerweise eingeschränkte Ansichten, die dem Betrachter entweder automatisch angezeigt werden können oder in denen der Benutzer mit einer Computermaus oder Tastendrücken durch ein Panorama schwenken kann.
In Übereinstimmung mit verschiedenen Ausführungsformen wird eine MIDMR aus einem Satz von Bildern erzeugt. Diese Bilder können je nach Anwendung von einem Benutzer erfasst werden, der beabsichtigt, eine MIDMR zu erstellen, oder aus dem Speicher abgerufen werden. Da eine MIDMR nicht auf eine bestimmte Menge an Sichtbarkeit begrenzt oder eingeschränkt ist, kann sie erheblich mehr visuelle Informationen zu verschiedenen Ansichten eines Objekts oder einer Szene liefern. Obwohl ein einzelner Sichtpunkt uneindeutig sein kann, um ein dreidimensionales Objekt angemessen zu beschreiben, können mehrere Ansichten des Objekts spezifischere und detailliertere Informationen liefern. Diese mehreren Ansichten können genug Informationen liefern, damit eine visuelle Suchabfrage genauere Suchergebnisse liefert. Da eine MIDMR Ansichten von vielen Seiten eines Objekts bietet, können für die Suche geeignete unterscheidende Ansichten aus der MIDMR ausgewählt oder von einem Benutzer angefordert werden, wenn keine bestimmte Ansicht verfügbar ist. Wenn beispielsweise die erfassten oder anderweitig bereitgestellten Daten nicht ausreichen, um die Erkennung oder Erzeugung des Objekts oder der Szene von Interesse mit einer ausreichend hohen Sicherheit zu ermöglichen, kann ein Erfassungssystem einen Benutzer anweisen, die Erfassungsvorrichtung weiter zu bewegen oder zusätzliche Bilddaten bereitzustellen. Wenn in bestimmten Ausführungsformen festgestellt wird, dass eine MIDMR zusätzliche Ansichten benötigt, um ein genaueres Modell zu erzeugen, kann ein Benutzer aufgefordert werden, zusätzliche Bilder bereitzustellen.
Mit Bezug auf 12 ist ein Beispiel eines Prozesses dargestellt, um einen Benutzer zur Eingabe zusätzlicher Bilder 1200 aufzufordern, um eine genauere MIDMR bereitzustellen. In dem vorliegenden Beispiel werden Bilder von einer Erfassungsvorrichtung oder einem Speicher bei 1202 empfangen. Als Nächstes wird bestimmt, ob die bereitgestellten Bilder ausreichend sind, um bei 1204 die Erkennung eines Objekts von Interesse zu ermöglichen. Wenn die Bilder nicht ausreichen, um eine Erkennung eines Objekts von Interesse zu ermöglichen, erhält der Benutzer bei 1206 eine Aufforderung, ein oder mehrere zusätzliche Bilder aus verschiedenen Sichtwinkeln bereitzustellen. In einigen Beispielen kann die Aufforderung an den Benutzer, ein oder mehr zusätzlichen Bilder aus verschiedenen Sichtwinkeln bereitzustellen, einen Vorschlag von einem oder mehreren bestimmte Sichtwinkeln beinhalten. Wenn der Benutzer aktiv Bilder aufnimmt, kann der Benutzer in einigen Fällen dazu aufgefordert werden, wenn ein bestimmter Sichtwinkel erkannt wird. Nach verschiedenen Ausführungsformen können Vorschläge zum Bereitstellen eines oder mehrerer bestimmter Sichtwinkel basierend auf den Orten bestimmt werden, die den bereits empfangenen Bildern zugeordnet sind. Außerdem kann das Auffordern eines Benutzers, ein oder mehrere zusätzliche Bilder aus verschiedenen Sichtwinkeln bereitzustellen, abhängig von der Anwendung das Vorschlagen eines bestimmten Aufnahmemodus, beispielsweise einer lokal konkaven MIDMR, einer lokal konvexen MIDMR oder einer lokal flachen MIDMR umfassen.
Als nächstes empfängt das System diese zusätzlichen Bilder von dem Benutzer bei 1208. Sobald die zusätzlichen Bilder empfangen werden, wird erneut festgestellt, ob die Bilder ausreichend sind, um die Erkennung eines Objekts von Interesse zu ermöglichen. Dieser Prozess wird fortgesetzt, bis festgestellt wird, dass die Bilder ausreichend sind, um die Erkennung eines Objekts von Interesse zu ermöglichen. In einigen Ausführungsformen kann der Prozess an diesem Punkt enden und eine MIDMR kann erzeugt werden.
Wenn festgestellt ist, dass die Bilder ausreichend sind, um das Erkennen eines Objekts von Interesse zu ermöglichen, kann optional in 1210 festgestellt werden, ob die Bilder ausreichend sind, um das Objekt von Interesse von ähnlichen, aber nicht übereinstimmenden Objekten zu unterscheiden. Diese Feststellung kann insbesondere bei der Verwendung der visuellen Suche hilfreich sein, deren Beispiele im Folgenden ausführlicher mit Bezug auf 19 bis 22 beschrieben sind. Insbesondere kann ein Objekt von Interesse unterscheidende Merkmale aufweisen, die aus bestimmten Winkeln gesehen werden können, die zusätzliche Ansichten erfordern. Zum Beispiel kann ein Porträt einer Person nicht ausreichend die Frisur der Person zeigen, wenn nur Bilder von den vorderen Winkeln aufgenommen werden. Möglicherweise müssen zusätzliche Bilder des Rückens der Person bereitgestellt werden, um zu bestimmen, ob die Person kurze Haare oder nur eine nach hinten gekämmte Frisur trägt. In einem anderen Beispiel kann ein Bild einer Person, die ein Hemd trägt, eine zusätzliche Aufforderung rechtfertigen, wenn es auf einer Seite einfarbig ist und zusätzliche Ansichten Drucke oder andere Symbole auf den Ärmeln oder dem Rücken usw. gezeigt würden.
In einigen Beispielen enthält die Feststellung, dass die Bilder nicht ausreichend sind, um das Objekt von Interesse von ähnlichen, aber nicht passenden Objekten zu unterscheiden, die Feststellung, dass die Anzahl der passenden Suchergebnisse einen vorbestimmten Grenzwert überschreitet. Wenn eine große Anzahl von Suchergebnissen gefunden wird, kann insbesondere festgestellt werden, dass zusätzliche Ansichten erforderlich sind, um die Suchkriterien einzugrenzen. Wenn zum Beispiel bei der Suche nach einem Becher eine große Anzahl von Übereinstimmungen erzielt wird, z. B. mehr als 20, sind möglicherweise zusätzliche Ansichten des Bechers erforderlich, um die Suchergebnisse einzuschränken.
Wenn die Bilder nicht ausreichen, um bei 1210 das Objekt von Interesse von ähnlichen aber nicht übereinstimmenden Objekten zu unterscheiden, erhält der Benutzer bei 1212 eine Aufforderung, ein oder mehrere zusätzliche Bilder aus verschiedenen Sichtwinkeln bereitzustellen. In einigen Beispielen kann die Aufforderung an den Benutzer, ein oder mehr zusätzlichen Bilder aus verschiedenen Sichtwinkeln bereitzustellen, einen Vorschlag von einem oder mehreren bestimmte Sichtwinkeln beinhalten. Wenn der Benutzer aktiv Bilder aufnimmt, kann der Benutzer in einigen Fällen dazu aufgefordert werden, wenn ein bestimmter Sichtwinkel erkannt wird. Nach verschiedenen Ausführungsformen können Vorschläge zum Bereitstellen eines oder mehrerer bestimmter Sichtwinkel basierend auf den Orten bestimmt werden, die den bereits empfangenen Bildern zugeordnet sind. Außerdem kann das Auffordern eines Benutzers, ein oder mehrere zusätzliche Bilder aus verschiedenen Sichtwinkeln bereitzustellen, abhängig von der Anwendung das Vorschlagen eines bestimmten Aufnahmemodus, beispielsweise einer lokal konkaven MIDMR, einer lokal konvexen MIDMR oder einer lokal flachen MIDMR umfassen.
Als nächstes empfängt das System diese zusätzlichen Bilder von dem Benutzer bei 1214. Sobald die zusätzlichen Bilder empfangen werden, wird erneut festgestellt, ob die Bilder ausreichend sind, um das Objekt von Interesse von ähnlichen aber nicht übereinstimmenden Objekten zu unterscheiden. Dieser Prozess wird fortgesetzt, bis festgestellt wird, dass die Bilder ausreichend sind, um das Objekt von Interesse von ähnlichen aber nicht übereinstimmenden Objekten zu unterscheiden. Als nächstes endet der Prozess und eine MIDMR kann aus den Bildern erzeugt werden.
Mit Verweis auf 13A bis 13B sind Beispiele für Aufforderungen dargestellt, die weitere Bilder von einem Benutzer anfordern, um eine genauere MIDMR zu erzeugen. Insbesondere ist eine Vorrichtung 1300 mit einem Suchbildschirm gezeigt. In 13A ist ein Beispiel einer visuellen Suchabfrage 1302 bereitgestellt. Diese visuelle Suchabfrage 1302 enthält ein Bild eines weißen Bechers. Die Ergebnisse 1306 umfassen verschiedene Becher mit weißem Hintergrund. Wenn in bestimmten Ausführungsformen eine große Menge von Suchergebnissen gefunden wird, kann eine Aufforderung 1304 ausgegeben werden, um von dem Benutzer zusätzliche Bilddaten für die Suchabfrage anzufordern.
In 13B, wird ein Beispiel einer anderen visuellen Suchabfrage 1310 als Antwort auf die Aufforderung 1304 in 13A bereitgestellt. Diese visuelle Suchabfrage 1310 stellt einen anderen Sichtpunkt des Objekts bereit und liefert spezifischere Informationen über die Grafiken auf dem Becher. Diese visuelle Suchabfrage 1310 liefert neue Ergebnisse 1312, die zielgerichteter und genauer sind. In einigen Beispielen kann eine zusätzliche Aufforderung 1308 bereitgestellt werden, um den Benutzer zu informieren, dass die Suche abgeschlossen ist.
Wenn eine MIDMR erzeugt wird, kann sie in bestimmten Ausführungsformen in verschiedenen Anwendungen verwendet werden. Eine Anwendung für eine MIDMR umfasst es, dem Benutzer zu ermöglichen, in einer MIDMR zu navigieren oder auf andere Weise damit zu interagieren. Nach verschiedenen Ausführungsformen soll eine MIDMR das Gefühl simulieren, in einer Szene physisch anwesend zu sein, wenn der Benutzer mit der MIDMR interagiert. Diese Erfahrung hängt nicht nur vom Sichtwinkel der Kamera ab, sondern auch von der Art der betrachteten MIDMR. Obwohl eine MIDMR nicht insgesamt eine spezifische feste Geometrie aufweisen muss, können verschiedene Arten von Geometrien in bestimmten Ausführungsformen über ein lokales Segment einer MIDMR dargestellt werden, wie beispielsweise einer konkaven, konvexen und flachen MIDMR.
In bestimmten beispielhaften Ausführungsform wird der Modus der Navigation durch die Art der Geometrie informiert, die durch eine MIDMR dargestellt wird. Zum Beispiel kann bei konkaven MIDMRs der Vorgang des Drehens einer Vorrichtung (wie einem Smartphone usw.) imitieren, dass ein stationärer Beobachter, der sich eine ihn umgebenden Szene betrachtet, dreht. In einigen Anwendungen kann durch Wischen auf dem Bildschirm in eine Richtung die Ansicht in die entgegengesetzte Richtung gedreht werden. Dieser Effekt ist vergleichbar damit, dass ein Benutzer mit dem ein Benutzer in einem Hohlzylinder steht und an den Wänden schiebt, um diese um den Benutzer herum zu drehen. In anderen Beispielen mit konvexen MIDMRs kann das Drehen der Vorrichtung dazu führen, dass der Blick sich in die Richtung dreht, in die sie geneigt wird, sodass das Objekt von Interesse zentriert bleibt. In einigen Anwendungen bewirkt das Wischen auf dem Bildschirm in eine Richtung, dass sich der Sichtwinkel in dieselbe Richtung dreht: Dadurch wird das Gefühl erzeugt, dass das Objekt von Interesse um seine Achse gedreht wird oder sich der Benutzer um das Objekt dreht. In einigen Beispielen mit flachen Ansichten kann das Drehen oder Bewegen einer Vorrichtung dazu führen, dass sich die Ansicht in die Bewegungsrichtung der Vorrichtung verschiebt. Zusätzlich kann Wischen über den Bildschirm in eine Richtung den Blick in die entgegengesetzte Richtung verschieben, als würden Vordergrundobjekte zur Seite geschoben.
In einigen Beispielen kann ein Benutzer in der Lage sein, eine Multi-MIDMR oder eine Kurve von MIDMRs zu navigieren, wobei einzelne MIDMRs Stück für Stück geladen werden können und weitere MIDMR bei Bedarf geladen werden können (beispielsweise, wenn sie neben der aktuellen MIDMR liegen/diese überlappen und/oder der Benutzer auf sie zu navigiert). Wenn der Benutzer einen Punkt in einer MIDMR erreicht, an dem sich zwei oder mehr MIDMRs überlappen, kann der Benutzer auswählen, welcher der überlappenden MIDMRs er folgen will. In einigen Fällen kann die Auswahl, welcher MIDMR gefolgt wird, auf der Richtung basieren, in der der Benutzer auf der Vorrichtung wischt oder sie bewegt.
Mit Verweis auf 14 ist ein Beispiel eines Prozesses zum Navigieren einer MIDMR 1400 dargestellt. In dem vorliegenden Beispiel wird eine Anforderung von einem Benutzer empfangen, bei 1402 ein Objekt von Interesse in einer MIDMR anzuzeigen. Nach verschiedenen Ausführungsformen kann die Anfrage auch eine generische Anforderung zum Anzeigen einer MIDMR ohne ein bestimmtes Objekt von Interesse sein, z. B. beim Anzeigen einer Landschafts- oder Panoramaansicht. Als Nächstes wird bei 1404 auf ein dreidimensionales Modell des Objekts zugegriffen. Dieses dreidimensionale Modell kann die gesamte oder einen Teil einer gespeicherten MIDMR umfassen. Zum Beispiel kann das dreidimensionale Modell in einigen Anwendungen eine Ansicht mit segmentiertem Inhalt sein. Ein anfängliches Bild wird dann bei 1406 von einem ersten Sichtpunkt zu einer Ausgabevorrichtung gesendet. Dieser erste Blickpunkt dient als Startpunkt zum Betrachten der MIDMR auf der Ausgabevorrichtung.
Bei der vorliegenden Ausführungsform wird dann eine Benutzeraktion empfangen, das Objekt von Interesse von einem zweiten Sichtwinkel zu betrachten. Diese Benutzeraktion kann je nach Anwendung das Bewegen (z. B. Neigen, Verschieben, Drehen usw.) einer Eingabevorrichtung, das Wischen auf dem Bildschirm usw. umfassen. Zum Beispiel kann die Benutzeraktion einer Bewegung entsprechen, die einer lokal konkaven MIDMR, einer lokal konvexen MIDMR oder einer lokal flachen MIDMR usw. zugeordnet ist. Nach verschiedenen Ausführungsformen kann eine Objektansicht um eine Achse gedreht werden, indem eine Vorrichtung um die gleiche Achse gedreht wird. Zum Beispiel kann die Objektansicht entlang einer vertikalen Achse gedreht werden, indem die Vorrichtung um die vertikale Achse gedreht wird. Basierend auf den Eigenschaften der Benutzeraktion wird das dreidimensionale Modell bei 1410 verarbeitet. Zum Beispiel kann eine Bewegung der Eingabevorrichtung erfasst werden und ein entsprechender Sichtpunkt des Objekts von Interesse kann gefunden werden. In Abhängigkeit von der Anwendung können sowohl die Eingabevorrichtung als auch die Ausgabevorrichtung in einer mobilen Vorrichtung enthalten sein. In einigen Beispielen entspricht das angeforderte Bild einem Bild, das vor der Erzeugung der MIDMR aufgenommen wurde. In anderen Beispielen wird das angeforderte Bild basierend auf dem dreidimensionalen Modell (z. B. durch Interpolation usw.) erzeugt. Ein Bild von diesem Sichtpunkt kann bei 1412 an die Ausgabevorrichtung gesendet werden. In einigen Ausführungsformen kann das ausgewählte Bild mit einem gewissen Grad an Sicherheit hinsichtlich der Genauigkeit des ausgewählten Bildes an die Ausgabevorrichtung geliefert werden. Wenn zum Beispiel Interpolationsalgorithmen verwendet werden, um ein Bild unter einem bestimmten Sichtpunkt zu erzeugen, kann der Grad der Sicherheit variieren und kann in einigen Anwendungen einem Benutzer bereitgestellt werden. In anderen Beispielen kann eine Nachricht an die Ausgabevorrichtung geliefert werden, die anzeigt, falls nicht genügend Informationen in der MIDMR vorhanden sind, um die angeforderten Bilder bereitzustellen.
Bei einigen Ausführungsformen können Zwischenbilder zwischen dem Anfangsbild bei 1406 und das angeforderte Bild bei 1412. Insbesondere können diese Zwischenbilder Sichtpunkten entsprechen, die sich zwischen einem ersten Sichtpunkt, der mit dem Anfangsbild assoziiert ist, und einem zweiten Sichtpunk, der mit dem angeforderten Bild assoziiert ist, befinden. Außerdem können diese Zwischenbilder aufgrund der Eigenschaften der Benutzeraktion ausgewählt werden. Zum Beispiel können die Zwischenbilder dem Pfad der Bewegung der Eingabevorrichtung folgen, der mit der Benutzeraktion assoziiert ist, sodass die Zwischenbilder eine visuelle Navigation des Objekts von Interesse liefern.
Mit Verweis auf 15A zeigt ein Beispiel einer wischbasierten Navigation einer MIDMR. In dem vorliegenden Beispiel sind drei Ansichten der Vorrichtung 1500 dargestellt, während ein Benutzer eine MIDMR navigiert. Insbesondere ist die Eingabe 1510 ein Wischen durch den Benutzer auf dem Bildschirm der Vorrichtung 1500. Wenn der Benutzer von rechts nach links wischt, bewegt sich das Objekt von Interesse relativ zur Richtung des Wischens 1508. Insbesondere, wie durch den Ablauf der Bilder 1506, 1504 und 1502 dargestellt, ermöglicht die Eingabe 1510 dem Benutzer, sich um das Objekt von Interesse (d. h. den Mann, der eine Sonnenbrille trägt) zu drehen.
In dem vorliegenden Beispiel kann ein Wischen auf dem Bildschirm einer Vorrichtung der Drehung einer virtuellen Ansicht entsprechen. In anderen beispielhaften Ausführungsformen können jedoch andere Eingabemodi verwendet werden. Zum Beispiel kann eine MIDMR auch durch Kippen einer Vorrichtung in verschiedene Richtungen und unter Verwendung der Orientierungsrichtung der Vorrichtung, um die Navigation in der MIDMR zu führen, navigiert werden. In einem anderen Beispiel kann die Navigation auch auf der Bewegung des Bildschirms durch den Benutzer basieren. Dementsprechend kann eine Schwenkbewegung dem Benutzer ermöglichen, um die MIDMR herum zu blicken, als ob der Betrachter die Vorrichtung auf das Objekt von Interesse richten würde. In einem weiteren Beispiel kann eine Website verwendet werden, um die Interaktion mit der MIDMR in einem Webbrowser bereitzustellen. In diesem Beispiel sind Wisch- und/oder Bewegungssensoren möglicherweise nicht verfügbar und können durch Interaktion mit einer Maus oder einem anderen Cursor oder eine Eingabevorrichtung ersetzt werden.
Nach verschiedenen Ausführungsformen können die MIDMRs auch Tagging enthalten, die während der Navigation angezeigt werden können. Durch das Markieren (Tagging) können Objekte, Personen, Produkte oder andere Objekte in einer MIDMR identifiziert werden. Insbesondere ist das Tagging in einer MIDMR ein sehr leistungsfähiges Werkzeug, um Benutzern/Kunden Produkte zu präsentieren und für diese Elemente oder Objekte zu werben. In einem Beispiel kann ein Tag 1512 dem Ort des markierten Objekts folgen, sodass das Objekt aus unterschiedlichen Winkeln betrachtet werden kann, während die Taggingpositionen weiterhin gültig sind. Die Tags 1512 können verschiedene Datentypen speichern, wie einen Namen (z. B. Benutzername, Produktname usw.), eine Beschreibung, einen Link zu einer Website/einem Webshop, Preisinformationen, eine direkte Option zum Kauf eines markierten Objekts, eine Liste ähnlicher Objekte, etc. In einigen Beispielen können die Tags sichtbar werden, wenn ein Benutzer ein Objekt in einer MIDMR auswählt. In anderen Beispielen können die Tags automatisch angezeigt werden. Zusätzlich kann in einigen Anwendungen durch Auswahl eines Tags 1512 auf zusätzliche Informationen zugegriffen werden. Wenn ein Benutzer beispielsweise ein Tag auswählt, können zusätzliche Informationen wie z. B. eine Beschreibung, eine Verknüpfung usw. auf dem Bildschirm angezeigt werden.
In einigen Ausführungsform kann ein Benutzer einen Tag 1512 erstellen, indem er entweder einen Punkt oder einen Bereich in einer Sicht einer MIDMR wählt. Dieser Punkt oder Bereich wird dann automatisch in andere Sichtpunkte übertragen. Alternativ können dem Benutzer Taggingpositionen automatisch durch eine Anwendung auf der Grundlage unterschiedlicher Informationen, wie beispielsweise Gesichtserkennung, Objekterkennung, Objekte im Fokus, Objekte, die als Vordergrund identifiziert werden usw., vorgeschlagen werden. In einigen Beispielen kann Objekterkennung aus einer Datenbank bekannter Objekte oder Objekttypen/Klassen durchgeführt werden. In einigen Ausführungsformen erzeugt das System automatisch einen Satz möglicher Tags, aus denen der Benutzer wählen kann.
In dem vorliegenden Beispiel identifiziert das Tag 1512 ein Hemd in der MIDMR. Natürlich kann jeder Text oder Titel enthalten sein, wie beispielsweise ein Name, eine Marke usw. Dieses Tag 1512 kann auf einen bestimmten Ort in der MIDMR abgebildet werden, so dass das Tag in jeder ausgewählten Ansicht mit demselben Ort oder Punkt verbunden ist. Wie oben beschrieben, kann das Tag 1512 in einigen Ausführungsformen zusätzliche Informationen enthalten, auf die durch Tippen oder anderweitiges Auswählen des Tags zugegriffen werden kann. Auch, wenn das Tag in 15A beschrieben ist, sollte angemerkt werden, dass MIDMRs in einigen Beispielen kein Tagging enthalten müssen.
Bei verschiedenen Ausführungsform kann das System automatisch ein Objekt markieren, das in verschiedenen MIDMRs gemeinsam auftritt. In einigen Ausführungsformen kann das Objekt ein stationäres Objekt oder ein dynamisches Objekt sein. 15B illustriert eine erste MIDMR 740A, die 7D entspricht und ein dynamisches Objekt 744 (ein Auto) und ein stationäres Objekt 743 (Bäume) enthält. Wie in 15B dargestellt ist, zeigt die MIDMR 740A auch ein mit „Auto“ bezeichnetes Tag 744A. Die MIDMR 740A enthält auch ein mit „Bäume“ bezeichnetes Tag 743A. Nach den hier vorgestellten Techniken können die Tags 744A und 743A automatisch oder von einem Benutzer erstellt worden sein. In einigen Ausführungsformen scannt, wenn die Tags automatisch erzeugt werden, ein Bilderkennungsmodul das Bild bzw. die Bilder, die der MIDMR 740A entsprechen. Das Bilderkennungsmodul gleicht dann die Objekte, in diesem Fall ein Auto und Bäume, entweder lokal (lokaler Speicher) oder global (Internet) mit einer Datenbank ab. Das Bilderkennungsmodul findet dann die genaueste Übereinstimmung für die erkannten Objekte und markiert dann die Objekte mit Namen oder Titeln, die mit der genauesten Übereinstimmung assoziiert sind. In 15B erkennt das Bilderkennungsmodul die Objekte Bäume und Auto, durchsucht die Datenbanken nach ähnlichen Formen und Mustern, erkennt Übereinstimmungen mit anderen Bäumen und Autos, und markiert dann jedes Objekt entsprechend. In anderen Ausführungsformen kann ein Benutzer die Objekte markieren, indem er die Objekte auswählt und die Objekte mit den Tags markiert. In dem unwahrscheinlichen Fall, dass ähnliche gefundene Objekte nicht mit lokal oder global, einschließlich in sozialer Medien und eingebetteten Beschreibungen, gefundenen Texten, Titeln, Namen oder Tags assoziiert sind, wird der Benutzer aufgefordert, ein Tag für das Objekt einzugeben.
Wie oben erwähnt, ist Objekt 744 ein dynamisches Objekt und das Objekt 743 ein stationäres Objekt. 15C zeigt eine zweite MIDMR 740B, der eine andere Ansicht das Objekte 744 und 743 enthält. Da das Objekt 744 ein Auto ist, hat sich das Auto während der Aufnahme von Bildern bewegt, die die MIDMRs 740A und 740B erzeugt haben. Insbesondere ist das Auto 744 jetzt an den Bäumen 743 vorbeigefahren. Da die Bäume 743 stationär sind, impliziert das Darstellen der Bäume 743 auf der rechten Seite der MIDMR 740B, dass die MIDMR 740B einen Sichtpunkt eines Ortes zeigt, der sich irgendwo links von dem in MIDMR 740A dargestellten Sichtpunkt befindet. Die Objekte werden erneut markiert (getaggt). Während die Tags scheinbar das gleiche Etikett zu sein scheinen, sind die Tags tatsächlich neu erzeugte Tags, die den Tags in 15B entsprechen. Wie bei 15B können die Tags automatisch oder manuell von einem Benutzer erzeugt werden. Beim automatischen Markieren des dynamischen Objekts 744 erkennt das System zuerst, dass die MIDMR 740B gemeinsame Formen wie die in MIDMR 740A dargestellten Formen enthält. Nach der Feststellung, dass die gemeinsamen Formen tatsächlich die gleichen Objekte sind, markiert das System als nächstes die Objekte automatisch mit Tags, die den in 15B verwendeten Tags entsprechen. Da jede MIDMR eine andere MIDMR ist, handelt es sich bei jedem Tag, das über mehrere Ansichten hinweg auf dasselbe Objekt verweist, technisch um ein neues Tag. Da sich beispielsweise die Ansicht von 740A auf 740B geändert hat, kann das Tag 743A nicht verwendet werden, da sich der Ort des Tags auf der rechten Seite der Bäume 743 befindet. Somit wird ein neues Tag 743B erzeugt und auf der linken Seite der Bäume 743 dargestellt, um für den Benutzer sichtbar zu sein. Tag 743B entspricht „Bäume“ und enthält dieses Label, wie Tag 743A. In ähnlicher Weise ist Tag 744B ein neues Tag, das mit dem Tag 744A übereinstimmt und das gleiche „Auto“-Label wie Tag 744A enthält. In einigen Ausführungsformen werden neue Tags, wie die neuen Tags 743B und 744B, unter Bezugnahme auf eine Liste von ähnlichen Objekten in anderen MIDMRs erzeugt. Wenn beispielsweise die Tags „Baum“ oder „Auto“ Objekte in einer Liste von Objekten anderer MIDMRs waren, werden die neuen Tags 743B und 744B auf der Grundlage der besten Übereinstimmung mit der Liste der Objekte ausgewählt. In einigen Ausführungsformen bezieht sich „beste Übereinstimmung“ auf Ergebnisse, die unter Verwendung von Gesamtpixelvergleichen, Punktverfolgungsvergleichen oder anderen in dieser Offenbarung beschriebenen Übereinstimmungsalgorithmen erzeugt werden. Wenn in solchen Ausführungsformen das Tag ein neues Objekt ist, das nicht in der Liste enthalten ist, wird das neue Tag-Objekt zur Liste der Objekte für das zukünftige Tagging hinzugefügt.
Für stationäre Objekte ist das automatische Tagging viel einfacher, weil die Anordnung der stationären Objekte in verschiedenen nacheinander aufgenommenen Bildern relativ gleich ist. Obwohl sich die Bäume 743 in den 15B und 15C an sehr unterschiedlichen Stellen befinden, ist der Unterschied zur Veranschaulichung übertrieben dargestellt. In der Praxis würde eine Kamera Bilder mit einer ausreichend hohen Aufnahmerate aufnehmen, sodass das gleiche stationäre Objekt in zwei direkt benachbarten Fotos eine minimale Ortsänderung aufweisen würde. Wenn also zwei benachbarte Bilder das gleiche Objekt aufweisen, sich dieses jedoch an zwei drastisch unterschiedlichen Orten befindet, kann das System davon ausgehen, dass es sich bei den beiden Objekten um verschiedene Objekte handelt, was bedeutet, dass das Tag im ersten Bild nicht mehr dem Tag im zweiten Bild entspricht. Bei der Feststellung, was eine ausreichende Unterscheidung darstellt, wird der Zeitabstand zwischen den Zeitstempeln jedes aufgenommenen Bildes gemessen. Zusätzlich wird in einigen Ausführungsformen auch die Bewegung und Geschwindigkeit der Bewegung der Kamera berücksichtigt. Nach Berücksichtigung dieser Faktoren wird ein Wert für das Delta in der Positionsänderung berechnet und mit einem Grenzwert verglichen. Wenn aufgrund der Zeit zwischen den Aufnahmen und der Geschwindigkeit und Bewegungsrichtung der Kamera die Ortsdifferenz des Objekts im zweiten Bild gegenüber dem ersten Bild unter einem vorbestimmten Grenzwert liegt, dann wird davon ausgegangen, dass die Objekte dasselbe Objekt sind und ein Tag, der dem ersten Tag entspricht, kann automatisch erzeugt werden. Wenn die Differenz den Grenzwert überschreitet, wird davon ausgegangen, dass das Objekt ein vollkommen anderes Objekt ist, und der Prozess zum Erzeugen neuer Tags wird für das neue Objekt wiederholt.
Für bewegliche/dynamische Objekte ist das automatische Tagging je nach Geschwindigkeit des sich bewegenden Objekts ein wenig komplizierter. In einigen Ausführungsformen muss die Geschwindigkeit des Objekts berücksichtigt werden, wenn bestimmt wird, ob das Objekt von einem Bild zu einem benachbarten Bild tatsächlich dasselbe Objekt ist. In einigen Ausführungsformen wird das Objekt dahingehend analysiert, ob ähnliche Objekte sich ebenfalls bewegen. Ein solcher Vergleich kann mit vorhandenen bekannten mobilen Objekten durchgeführt werden. Wenn das Objekt beispielsweise als ein bestimmtes Objekt gekennzeichnet ist, wird eine Suche durchgeführt, um zu sehen, ob sich das Objekt bewegen kann. Im Falle eines Autos durchsucht das System Datenbanken, um festzustellen, dass Autos sich tatsächlich bewegen. Wenn es sich bei dem Objekt um einen Baum handelt, durchsucht das System die Datenbanken, um festzustellen, dass sich der Baum nicht bewegt. In einigen Ausführungsformen sind die Tags einer Markierung zugeordnet, die anzeigt, ob das Objekt dynamisch ist. In einigen Ausführungsformen sind die Grenzwerte für Ortsunterschiede dynamischer Objekte über benachbarte Bilder viel höher. In einigen Ausführungsformen werden die Werte der Ortsdifferenzen von dynamischen Objekten über benachbarte Bilder durch die Geschwindigkeiten der dynamischen Objekte und die Bewegung der Kamera (falls vorhanden) normalisiert. Wenn zum Beispiel ein Auto mit 2 Fuß/Sekunde fährt und die Kamera stationär ist, wird der Wert der Ortsdifferenz zwischen 1-Sekunden-Aufnahmen durch 2 Fuß geteilt. Nach der Normalisierung wird das Objekt als stationäres Objekt behandelt und mit den üblichen stationären Objektgrenzwerten für akzeptable Ortsunterschiede verglichen.
In einigen Ausführungsformen können die Tags 744A und 743A automatisch durch ein neuronales Netz für Tags erstellt worden sein, das trainiert wurde, Objekte innerhalb MIDMR zu identifizieren und zu beschriften. In einigen Ausführungsformen ist das hierin beschriebene neuronale Netzsystem ein gefaltetes neuronales Netz. In einigen Ausführungsformen kann das neuronale Netz mehrere Berechnungslagen umfassen.
In einigen Ausführungsformen wird ein neuronales Netz trainiert, um jedes Pixel in einem Bild beschriften, das der MIDMR 740A entspricht. Das neuronale Netz kann so trainiert werden, dass jedes Pixel in dem Bild mit einer bestimmten Kategorienbezeichnung (z. B. Person, Auto, Himmel usw.) markiert wird. Ein solches Training kann durch Eingeben von Trainingspaaren durchgeführt werden, die ein Trainingsbild und eine entsprechende Etikettenkarte umfassen. Das Trainingsbild kann als Tensor in das neuronale Netz eingegeben werden, beispielsweise als Tensor dritter Ordnung, der zur Etikettierung durch die verschiedenen Lagen des neuronalen Netzwerks verarbeitet wird. In einigen Ausführungsformen wird das neuronale Netz trainiert, indem Ausgaben aus verschiedenen Lagen in einer Merkmalskarte zusammengefasst werden, die zu einem Downsampling von der Originalbildgröße führen. Das Ergebnis kann dann mit der vorbestimmten Beschriftungskarte verglichen werden, die diesem Trainingsbild entspricht. Die Parameter des neuronalen Netzes können dann aktualisiert werden. In einigen Ausführungsformen werden die Parameter unter Verwendung eines stochastischen Gradientenabfalls aktualisiert.
Sobald das neuronale Netz ausreichend trainiert ist, kann es verwendet werden, um Pixel in neuen Bildsequenzen zu markieren. Solche Bildsequenzen können Bildframes sein, die einer MIDMR entsprechen. Bei anderen Ausführungsformen können die Bilder unverarbeitete Bilder sein, die von einer Kamera aufgenommen werden.
In einigen Ausführungsformen wird eine Merkmalskarte des Bildes dann durch das neuronale Netz erzeugt. In einigen Ausführungsformen kann das neuronale Netz für k Objektklassen (z. B. Person, Auto, Himmel usw.) trainiert werden, um eine Merkmalskarte zu erzeugen, die k Kanäle aufweist, wobei der Kanal ‚j‘ die Wahrscheinlichkeit darstellt, dass jedes Pixel das Objektklasse ‚j‘ entspricht. In verschiedenen Ausführungsformen können Objektklassen die folgenden Objektklassen umfassen, ohne darauf beschränkt zu sein: Gebäude, Gras, Baum, Kuh, Schaf, Himmel, Flugzeug, Wasser, Gesicht, Auto, Fahrrad, Blume, Zeichen, Vogel, Buch, Stuhl, Straße, Katze, Hund, Körper und Boot. Wie zuvor mit Bezug auf das Training des neuronalen Netzes beschrieben, wird das neuronale Netz durch das Sammeln von Ausgaben von verschiedenen Lagen in einem Merkmalskarte trainiert, die aus dem Downsampling der Originalbildgröße entsteht. Der Vorteil der Aggregation von Merkmalskarten aus verschiedenen Lagen des neuronalen Netzes ermöglicht die Verwendung von Details mit feinerem Maßstab und gröberem Maßstab, um diese Wahrscheinlichkeitskarten zu erstellen. Wenn Sie beispielsweise nur niedrigere Lagen oder nur höhere Lagen verwenden, werden die Ergebnisse nicht optimal.
In einigen Ausführungsformen kann eine Wahrscheinlichkeitskarte für eine Klasse von Interesse erzeugt werden. Um eine Wahrscheinlichkeitskarte einer Objektlasse von Interesse (z. B. Person) zu erhalten, wird in einigen Ausführungsformen die Merkmalskarte extrahiert, die der Personenobjektklasse entspricht. Dann werden Pixel mit geringen Wahrscheinlichkeiten eliminiert. Beispielsweise werden die Pixel, bei denen die Personenobjektklasse nicht die wahrscheinlichste unter allen anderen Klassen ist, auf null gesetzt. In einigen Ausführungsformen kann eine Grenzwertwahrscheinlichkeit von einem Benutzer vorbestimmt oder festgelegt werden. In einigen Ausführungsformen werden die Pixel mit geringen Wahrscheinlichkeiten nicht eliminiert, sondern stattdessen beschriftet. Die Pixel, die der gewünschten Objektklasse entsprechen, können ebenfalls beschriftet werden. In einigen Ausführungsformen können die Wahrscheinlichkeitswerte dann zwischen 0-1 wieder normalisiert werden.
In einigen Ausführungsformen können die Tags 744A und 743A automatisch durch ein neuronales Tagging-Netz, das trainiert wurde, Objekte innerhalb MIDMR zu identifizieren, zu taggen und zu beschriften, in Kombination mit der Erstellung durch einen Benutzer erstellt worden sein.
In einigen Ausführungsformen kann ein RANSAC- (Random Sample Consensus) Algorithmus die Transformation zwischen zwei Objekten innerhalb der beiden MIDMRs bestimmen. In dem in 15B und 15C beschriebenen Beispiel werden, wenn die Transformation das Objekte 743 und 744 in MIDMRs 740A bzw. 740B berechnet wird, um festzustellen, dass die Objekte 743 und 744, die in den MIDMRs 740A und 740B berechnet wurden, dasselbe Objekt sind, die Tags 743B und 744B für die Objekte 743 und 744 in MIDMR 740B automatisch erzeugt. Wie hier beschrieben, kann die Transformation aus Schlüsselpunkten berechnet werden, die von einer ersten Ansicht zu einer zweiten Ansicht verfolgt werden. Verschiedene Transformationen können aus verschiedenen Parametern berechnet werden, die aus verschiedenen Kombinationen von Schlüsselpunkten ermittelt werden. Zunächst werden die Schlüsselpunkte in der ersten Ansicht und die entsprechenden Schlüsselpunkte in der zweiten Ansicht identifiziert. In einigen Ausführungsformen umfasst die erste Ansicht ein Bild, das in der zweiten Ansicht vor dem Bild erfasst wurde. In anderen Ausführungsformen kann die erste Ansicht ein Bild enthalten, das nach dem Bild in der zweiten Ansicht aufgenommen wurde. In verschiedenen Ausführungsformen können Schlüsselpunkte unter Verwendung eines Eckenerkennungsalgorithmus nach Harris oder eines anderen Erkennungsverfahrens für Schlüsselpunkte identifiziert werden. In anderen Ausführungsformen können verschiedene andere Eckenerkennungsalgorithmen umgesetzt werden, wie beispielsweise ein Moravec-Eckenerkennungsalgorithmus, eine Förstner-Eckenerkennung usw. Ein derartiger Eckenerkennungsalgorithmus kann umgesetzt werden, um auffällige Merkmale zu erkennen, die in jeder Ansicht als Schlüsselpunkte bezeichnet werden, wie beispielsweise Bereiche mit hohem Kontrast, Bereiche mit minimaler Mehrdeutigkeit in verschiedenen Dimensionen und/oder Bereiche mit starker Eckigkeit. Eine vorbestimmte Anzahl von Schlüsselpunkten mit der höchsten Harris-Bewertung kann dann ausgewählt werden. In der ersten Ansicht können beispielsweise 1.000 Schlüsselpunkte identifiziert und ausgewählt werden. Die entsprechenden 1.000 Schlüsselpunkte auf der zweiten Ansicht können dann mit einem Kanade-Lucas-Tomasi-(KLT) Merkmalstracker identifiziert werden, der Schlüsselpunkte zwischen den beiden Bild verfolgt.
Als Nächstes werden zwei Schlüsselpunkte in der ersten Ansicht und die entsprechenden Schlüsselpunkte in der zweiten Ansicht ausgewählt. In einigen Ausführungsformen können die zwei Schlüsselpunkte in der ersten Ansicht durch den RANSAC-Algorithmus zufällig ausgewählt werden. Die zwei entsprechenden Schlüsselpunkte in der zweiten Ansicht können durch den KLT-Merkmal-Tracker identifiziert werden. In einigen Ausführungsformen können zwei Schlüsselpunkte in der zweiten Ansicht zufällig ausgewählt werden, und die entsprechenden Schlüsselpunkte in der ersten Ansicht werden identifiziert. Jedes Paar entsprechender Schlüsselpunkte kann hierin als Übereinstimmung bezeichnet werden. Beispielsweise entsprechen sich der Schlüsselpunkt A in der Ansicht N und der Schlüsselpunkt A' in der Ansicht N + 1 über die KLT-Merkmalsverfolgung und können ein Paar (A, A') umfassen. Eine zweite Entsprechung (B, B ') kann ausgewählt werden, die den Schlüsselpunkt B in Ansicht N und den Schlüsselpunkt B' in Ansicht N + 1 umfasst.
Basierend auf den zwei Schlüsselpunktübereinstimmungen wird eine Transformation dann zwischen der ersten bestimmten Ansicht und der zweiten Ansicht festgestellt. In einigen Ausführungsformen wird ein Satz von zwei Schlüsselpunktübereinstimmungen verwendet, um eine Transformation festzustellen. In anderen Worten kann eine Transformation T1 zwischen der ersten Ansicht und der zweiten Ansicht aus den zwei entsprechenden Paaren von Schlüsselpunkten unter Verwendung eines vorbestimmten Algorithmus berechnet werden. Verschiedene Parameter können verwendet werden, um die Transformation zwischen entsprechenden Schlüsselpunkten durch einen vorbestimmten Algorithmus zu berechnen. In einer beispielhaften Ausführungsform können Ähnlichkeits-2D-Parameter, einschließlich x- und y-Translationen, einer 2D-Drehung und einer 2D-Skala, zum Bestimmen der Translation verwendet werden. Andere Parameter, die verwendet werden können, umfassen 2D-Translation (x- und y-Translation), 2D-euklidische Parameter (2D-Rotation und x-, y-Translation), Affine, Homographie usw. Als ein weiteres Beispiel kann ein mathematisches Modell verwendet werden, wie beispielsweise in M. Brown, R. Hartley und D. Nister: Minimal solutions for panoramic stitching. In Proceedings of the International Conference on Computer Vision and Pattern Recognition (CVPR07), Minneapolis, June 2007 bereitgestellt. Um eine Transformation basierend auf Rotation und Brennweite zu berechnen, sind vier Parameter erforderlich: drei für die Rotation und eine für die Brennweite. In den obigen Beispielen können vier Abhängigkeiten durch die zwei Entsprechungen für jeden ausgewählten Schlüsselpunkt zwischen Ansichten bereitgestellt werden. Die abgeleitete geschlossene Lösung ist die berechnete Transformation basierend auf den zwei ausgewählten Schlüsselpunktübereinstimmungen. In einigen Ausführungsformen werden mehr als zwei Schlüsselpunkte für Schlüsselpunktübereinstimmungen verwendet.
Mit Verweis auf 15D ist ein Beispiel eines Prozesses zum automatischen Markieren eines dynamischen Objekts in Multi-View-Interaktiven-Digitale-Medien-Darstellungen dargestellt. Bei 1522 wird eine erste Multi-View-Interaktiven-Digitale-Medien-Darstellung eines Objekts in einem Hintergrund erhalten. Als nächstes wird bei 1524 das dynamische Objekt in der ersten Multi-View-Interaktiven-Digitale-Medien-Darstellung mit einem ersten Tag markiert, wobei das erste Tag das dynamische Objekt identifiziert. Dann wird in 1526 eine zweite Multi-View-Interaktiven-Digitale-Medien-Darstellung des dynamischen Objekts erzeugt. In einigen Beispielen gibt die zweite Multi-View-Interaktiven-Digitale-Medien-Darstellung an, dass sich das dynamische Objekt von einem ersten Ort zu einem zweiten Ort bewegt hat. Bei 1528 wird das dynamische Objekt in der zweiten Multi-View-Interaktiven-Digitale-Medien-Darstellung automatisch identifiziert und mit einem zweiten Tag markiert, wobei das zweite Tag dem ersten Tag entspricht.
Nach verschiedenen Ausführungsformen, können MIDMRs auf verschiedene Weise gespeichert und abgerufen werden. Weiterhin können MIDMRs in vielen Anwendungen verwendet werden. Mit Verweis auf FIG. Mit Bezug auf 16A sind Beispiele eines Freigabedienstes für MIDMRs auf einer mobilen Vorrichtung 1602 und einem Browser 1604 dargestellt. Die mobile Vorrichtung 1602 und der Browser 1604 werden als alternative Thumbnail-Anzeigen 1600 dargestellt, da auf die MIDMRs je nach Anwendung von beiden Schnittstellen zugegriffen werden kann. Nach verschiedenen Ausführungsformen kann ein Satz von MIDMRs einem Benutzer auf verschiedene Weisen dargestellt werden, einschließlich, jedoch nicht beschränkt auf: eine Galerie, ein Feed und/oder eine Website. Zum Beispiel kann eine Galerie verwendet werden, um einem Benutzer eine Sammlung von Miniaturansichten darzustellen. Diese Miniaturansichten können entweder vom Benutzer oder automatisch aus den MIDMRs ausgewählt werden. In einigen Beispielen kann die Größe der Miniaturansichten auf der Grundlage von Merkmalen variieren, beispielsweise: einer automatisch ausgewählten Größe, die auf der Struktur und Größe des darin enthaltenen Inhalts basiert; und/oder auf der Beliebtheit der MIDMR. In einem anderen Beispiel kann ein Feed verwendet werden, um MIDMRs mithilfe von interaktiven Thumbnails darzustellen.
In dem vorliegenden Beispiel enthalten MIDMR-Thumbnails von einer mobilen Vorrichtung 1602 Thumbnails 1604 und Titel/Label/Beschreibung 1604. Die Thumbnails 1604 können ein Bild von der MIDMR beinhalten. Der Titel/das Label/die Beschreibung 1604 können Informationen über die MIDMR enthalten, wie Titel, Dateiname, Beschreibung des Inhalts, Label, Tagsusw.
In dem vorliegenden Beispiel enthalten ferner MIDMR Thumbnails von einem Browser 1604 Thumbnails 1606, Titel/Label/Beschreibung 1608 und Mitteilungen 1610. Die Thumbnails 1606 können ein Bild von der MIDMR beinhalten. Der Titel/das Label/die Beschreibung 1608 kann Informationen über die MIDMR enthalten, wie z. B. Titel, Dateiname, Beschreibung des Inhalts, Labels, Tags usw. Außerdem können die Mitteilungen 1610 Informationen enthalten, wie beispielsweise Kommentare zu einer MIDMR, Aktualisierungen über übereinstimmenden Inhalt, vorgeschlagenen Inhalt usw. Obwohl dies in der mobilen Version nicht dargestellt ist, können auch Mitteilungen enthalten sein. Sie können jedoch in einigen Ausführungsformen aus Gründen des Layouts und des Platzes weggelassen werden.
Mit Verweis auf 16B sind Beispiele von MIDMR-bezogenen Benachrichtigungen auf einer mobilen Vorrichtung gezeigt. Insbesondere sind alternative Benachrichtigungsanzeigen 1620 für eine Vorrichtung 1622 dargestellt, die unterschiedliche Formate für Mitteilungen enthalten. In einigen Beispielen kann ein Benutzer je nach Präferenzen des Benutzers zwischen diesen Anzeigen navigieren.
In dem vorliegenden Beispiel enthält die Anzeige 1624 eine Mitteilung 1626, die eine Empfehlung an den Benutzer basierend auf den Inhalt der letzten MIDMRs umfasst. Insbesondere bezieht sich die Empfehlung auf eine Reise nach Griechenland, basierend auf der Feststellung der Anwendung, dass der Benutzer Statuen mag. Diese Feststellung kann in einigen Beispielen aus Inhalten abgeleitet werden, die sich in den gespeicherten MIDMRs des Benutzers befinden oder in letzter Zeit durchsucht wurden.
In dem vorliegenden Beispiel Bildschirm 1628 enthält Mitteilungen 1630 basierend auf dem Inhalt von MIDMRs, dass der Benutzer gespeichert hat, durchsucht, usw. Zum Beispiel ist eine Mitteilung eine Empfehlung für ein Paar Schuhe, das bei einem nahegelegenen Händler verfügbar ist, die den Schuhen des Benutzers ähnlich sind, die in einem MIDMR-Modell bereitgestellt sind. Die Empfehlung enthält auch einen Link zu einer Karte für den Einzelhändler. Diese Empfehlung kann auf einer MIDMR basieren, die der Benutzer von einem Paar Schuhe gespeichert hat. Die andere Mitteilung ist eine Empfehlung, eine Verbindung zu einem anderen Benutzer herzustellen, der ein gemeinsames Interesse/Hobby hat. In diesem Beispiel basiert die Empfehlung auf dem Interesse des Benutzers an Hüten. Diese Empfehlungen können in einigen Anwendungen automatisch als Push-Mitteilungen bereitgestellt werden. Der Inhalt der Empfehlungen kann auf den MIDMRs des Benutzers oder dem Browserverlauf basieren, und visuelle Suchalgorithmen, wie zum Beispiel die mit Bezug auf 19 bis 22 beschriebenen, können in einigen Beispielen verwendet werden.
Anzeige 1630 zeigt eine andere Form der Mitteilung 1632 in dem vorliegenden Beispiel. In der Anzeige 1630 werden verschiedene Symbole für verschiedene Anwendungen dargestellt. Das Symbol für die MIDMR-Anwendung umfasst eine in das Symbol eingebettete Mitteilung 1632, die angibt, wie viele Mitteilungen auf den Benutzer warten. Wenn der Benutzer das Symbol auswählt, können die Mitteilungen nach verschiedenen Ausführungsformen angezeigt und/oder die Anwendung gestartet werden.
Bei verschiedenen Ausführungsformen der vorliegenden Offenbarung können MIDMRs verwendet werden Objekte von statischen oder dynamischen Szenen zu segmentieren oder zu trennen. Da MIDMRs charakteristische 3D-Modellierungsmerkmale und aus Bilddaten abgeleitete Informationen enthalten, bieten MIDMRs eine einzigartige Möglichkeit zur Segmentierung. In einigen Beispielen kann das Objekt segmentiert und als separate Entität behandelt werden, indem ein Objekt von Interesse als MIDMR-Inhalt behandelt wird und der Rest der Szene als Kontext ausgedrückt wird. Weiterhin kann der MIDMR-Kontext verwendet werden, um den Segmentierungsprozess in einigen Fällen zu verfeinern. In verschiedenen Ausführungsformen kann der Inhalt entweder automatisch oder halbautomatisch unter Verwendung einer vom Benutzer geführten Interaktion ausgewählt werden. Eine wichtige Verwendung für die MIDMR-Objektsegmentierung liegt im Zusammenhang mit Produktpräsentationen im elektronischen Handel, von denen ein Beispiel in 17B dargestellt ist. Weiterhin kann eine auf der MIDMR basierende Objektsegmentierung verwendet werden, um Objektmodelle zu generieren, die zum Trainieren künstlicher Intelligenz-Suchalgorithmen geeignet sind, die auf großen Datenbanken im Rahmen visueller Suchanwendungen ausgeführt werden können.
Mit Verweis auf 17 ist ein Beispiel eines Prozesses zur Darstellung das Objektsegmentierung 1700 dargestellt. Bei 1702 wird eine erste MIDMR eines Objekts erhalten. Als Nächstes wird bei 1704 Inhalt aus der ersten MIDMR gewählt. In einigen Beispielen wird der Inhalt automatisch ohne Benutzereingabe ausgewählt. In anderen Beispielen wird der Inhalt durch benutzergeführte Interaktion halbautomatisch ausgewählt. Der Inhalt wird dann bei 1706 aus der ersten MIDMR segmentiert. In einigen Beispielen wird der Inhalt durch Rekonstruktion eines dreidimensionalen Modells des Inhalts auf der Grundlage der Informationen, die in dem ersten MIDMR bereitgestellt werden, einschließlich Bildern von mehreren Kamerasichtpunkten, segmentiert. In bestimmten beispielhaften Ausführungsformen kann ein Mechanismus zum Auswählen und Initialisieren eines Segmentierungsalgorithmus basierend auf iterativen Optimierungsalgorithmen (wie etwa grafische Modelle) effizient durch Rekonstruieren des Objekt von Interesses oder Teilen davon in drei Dimensionen aus mehreren Kameraperspektiven verwendet werden in einer MIDMR verfügbar. Dieser Vorgang kann über mehrere Rahmen wiederholt und so lange optimiert werden, bis die Segmentierung eine Ausgabe der gewünschten Qualität erzielt. Weiterhin kann das Segmentieren des Inhalts das Verwenden des Kontexts umfassen, um Parameter des Inhalts zu bestimmen.
In dem vorliegenden Beispiel wird, sobald der Inhalt der ersten MIDMR segmentiert wird, eine zweite MIDMR erzeugt, die das Objekt ohne den Inhalt oder die Szenerie rund um das Objekt enthält. Bei 1708 wird diese zweite MIDMR bereitgestellt. In einigen Beispielen kann die zweite MIDMR dann in einer Datenbank gespeichert werden. Diese zweite MIDMR kann in verschiedenen Anwendungen verwendet werden. Zum Beispiel umfasst der segmentierte Inhalt ein Produkt für den E-Commerce. Wie in 17B illustriert, kann der segmentierte Inhalt verwendet werden, um ein Produkt unter verschiedenen Sichtpunkten zu zeigen. Eine andere Anwendung umfasst die Verwendung der zweiten MIDMR als Objektmodell für das Training künstlicher Intelligenz. In einer weiteren Anwendung kann die zweite MIDMR zum 3D-Druck verwendet werden. Bei dieser Anwendung sind Daten aus dem zweiten MIDMR sind zu einem 3D-Drucker.
Obwohl das vorliegende Beispiel Inhalte aus einer Segmentierung von Inhalten aus einer ersten MIDMR beschreibt, sollte angemerkt werden, dass in anderen Beispielen auch Kontext segmentiert werden kann. Zum Beispiel kann die Hintergrundszene in einigen Anwendungen als zweite MIDMR segmentiert werden. Insbesondere kann der Kontext aus der ersten MIDMR ausgewählt werden und der Kontext kann aus der ersten MIDMR so segmentiert werden, dass der Kontext in ein eigenes interaktives Modell abgetrennt wird. Die entstehende MIDMR schließt dann die Szenerie ein, die ein Objekt umgibt, schließt aber das Objekt selbst aus. Ein segmentiertes Kontextmodell kann ebenfalls in verschiedenen Anwendungen verwendet werden. Zum Beispiel können Daten aus der resultierenden MIDMR an einen 3D-Drucker gesendet werden. In einigen Beispielen können diese als Panoramahintergrund auf einer flachen oder gekrümmten Oberfläche gedruckt werden. Wenn auch ein Kontextmodell gedruckt wird, kann das Objekt von Interesse vor dem Panoramahintergrund platziert werden, um eine dreidimensionale „Fotografie“ oder ein Modell der MIDMR zu erstellen. In einer anderen Anwendung kann der segmentierte Kontext als Hintergrund für ein anderes Objekt von Interesse verwendet werden. Alternativ kann ein segmentierter Inhalt in einen neuen segmentierten Kontext eingefügt werden. In diesen Beispielen können durch das Bereitstellen eines alternativen Inhalts oder Kontexts Objekte von Interesse in neue Hintergründe usw. eingefügt werden. Beispielsweise kann eine MIDMR einer Person in verschiedenen Hintergrundkontexten platziert werden, wobei die Person in einer MIDMR an einem Strand stehend dargestellt wird, und in einer anderen MIDMR im Schnee stehend.
Mit Verweis auf 17B wird ein Beispiel eines segmentierten Objekts, das aus verschiedenen Winkeln betrachtet wird, gezeigt. Insbesondere ist eine Rotationsansicht 1720 eines Sportschuhs dargestellt. Die Objektansichten 1722, 1724, 1726, 1728 und 1730 zeigen den Sportschuh aus verschiedenen Winkeln oder Sichtpunkten. Wie gezeigt, wird das Objekt selbst ohne Hintergrund oder Kontext dargestellt. Nach verschiedenen Ausführungsformen können diese unterschiedlichen Ansichten des segmentierten Objekts automatisch aus dem MIDMR-Inhalt erhalten werden. Eine Anwendung dieser Arten von Rotationsansichten besteht im E-Commerce, um Produktansichten aus verschiedenen Sichtwinkeln zu zeigen. Eine andere Anwendung kann nach verschiedenen Ausführungsformen die visuelle Suche sein.
Nach verschiedenen Ausführungsformen können MIDMRs aus Daten aus verschiedenen Quellen erzeugt werden und können in zahlreichen Anwendungen eingesetzt werden. Mit Verweis auf 18 ist ein Blockdiagramm dargestellt, das ein Beispiel verschiedener Quellen, die zur Erzeugung von MIDMR verwendet werden können, und verschiedene Anwendungen, die mit einer MIDMR verwendet werden können, darstellt. In dem vorliegenden Beispiel umfassen die MIDMR-Erzeugung und Anwendungen 1800 Quellen für Bilddaten 1808, wie z. B. Internetgalerien 1802, Datenspeicher 1804 und Benutzer 1806. Insbesondere können die Datenspeicher Datenbanken, Festplatten, Speichervorrichtungen usw. enthalten. Weiterhin können Benutzer 1806 Bilder und Informationen einschließen, die direkt von Benutzern, etwa während der Bilderfassung auf einem Smartphone usw. erhalten werden. Obwohl diese speziellen Beispiele von Datenquellen genannt sind, können Daten auch von anderen Quellen erhalten werden. Diese Informationen können als Bilddaten 1808 gesammelt werden, um in bestimmten Ausführungsformen eine MIDMR 1810 zu erzeugen.
In dem vorliegenden Beispiel kann eine MIDMR 1810 in verschiedenen Anwendungen eingesetzt werden. Wie dargestellt, kann eine MIDMR in Anwendungen wie E-Commerce 1812, visueller Suche 1814, 3D-Druck 1816, Dateifreigabe 1818, Benutzerinteraktion 1820 und Unterhaltung 1822 verwendet werden. Natürlich ist diese Liste nur beispielhaft und MIDMRs können auch in anderen Anwendungen verwendet werden, die nicht ausdrücklich erwähnt sind.
Wie oben in Bezug auf die Segmentierung beschrieben, können MIDMRs im E-Commerce 1812 verwendet werden. Mit MIDMRs können Kunden beispielsweise ein Produkt aus verschiedenen Sichtwinkeln betrachten. In einigen Anwendungen können Käufer sogar MIDMRs verwenden, um die Größen, Abmessungen und die Passform zu bestimmen. Insbesondere kann ein Käufer ein Eigenmodell bereitstellen und anhand der MIDMR-Werte feststellen, ob das Produkt dem Modell passt. MIDMRs können auch bei der visuellen Suche 1814 verwendet werden, wie nachstehend ausführlicher beschrieben unter Bezugnahme auf die 19 bis f22. Einige visuelle Suchanwendungen können sich auch auf E-Commerce beziehen, z. B. wenn ein Benutzer versucht, ein bestimmtes Produkt zu finden, das mit einer visuellen Suchabfrage übereinstimmt.
Eine weitere Anwendung der Segmentierung umfasst dreidimensionalen Druck (3D-Drucken) 1816. Der dreidimensionale Druck wurde in letzter Zeit als eine der zukunftsweisenden Technologien identifiziert, die die Weltwirtschaft im nächsten Jahrzehnt verbessern werden. Nach verschiedenen Ausführungsformen kann der Inhalt von einer MIDMR aus im 3D gedruckt werden. Weiterhin kann auch der Panorama-Hintergrundkontext in einer MIDMR ausgedruckt werden. In einigen Beispielen kann ein gedruckter Hintergrundkontext das endgültige 3D-Druckerzeugnis für Benutzer ergänzen, die sich Erinnerungen in einem 3D-gedruckten Format erhalten möchten. Beispielsweise kann der Kontext entweder als flache Ebene hinter dem 3D-Inhalt oder als beliebige andere geometrische Form (sphärisch, zylindrisch, U-Form usw.) gedruckt werden.
Wie oben mit Bezug auf 16A beschrieben, können MIDMRs mit Miniaturansichten für den Benutzerzugriff gespeichert werden. Diese Art der Anwendung kann in einigen Beispielen für die Dateifreigabe 1818 zwischen Benutzern verwendet werden. Zum Beispiel kann eine Website eine Infrastruktur für Benutzer enthalten, um MIDMRs auf eine ähnliche Weise wie aktuelle Foto-Sharing-Sites zu teilen. Die Dateifreigabe 1818 kann in einigen Anwendungen auch direkt zwischen Benutzern umgesetzt werden.
Auch wie mit Bezug auf 14 und 15 beschrieben, ist die Benutzerinteraktion eine andere Anwendung von MIDMRs. Insbesondere kann ein Benutzer zu seinem eigenen Vergnügen oder zur Unterhaltung durch eine MIDMR navigieren. Durch die Erweiterung dieses Konzepts auf Unterhaltungszwecke 1822 können MIDMRs auf vielfältige Weise verwendet werden. Zum Beispiel können MIDMRs in Werbung, Videos usw. verwendet werden.
Wie zuvor beschrieben, ist eine Anwendung von MIDMRs die visuelle Suche. 19, 20 und 22 zeigen Beispiele für die visuelle Suche mit MIDMRs. Nach verschiedenen Ausführungsformen können die MIDMRs in Suchergebnissen eine viel höhere Diskriminierungsleistung bereitstellen als jede andere digitale Mediendarstellung. Insbesondere die Fähigkeit, Inhalt und Kontext in einer MIDMR voneinander zu trennen, ist ein wichtiger Aspekt, der bei der visuellen Suche verwendet werden kann.
Die bestehenden digitalen Medienformate wie 2D-Bilder sind nicht geeignet für die Indizierung, in dem Sinne, dass sie nicht ausreichend Unterscheidungsinformationen nativ zur Verfügung stellen. Infolgedessen werden viele Milliarden Dollar in die Erforschung von Algorithmen und Mechanismen investiert, um solche Informationen daraus zu extrahieren. Dies hat zu befriedigenden Ergebnissen für einige Probleme geführt, beispielsweise für die Gesichtserkennung. Im Allgemeinen ist das Problem, eine 3D-Form aus einem einzigen Bild herauszufinden, jedoch in bestehenden Technologien schlecht gelöst. Obwohl durch die Verwendung von Bildsequenzen oder 2D-Videos der Anteil an Fehlalarmen und Negativen reduziert werden kann, sind die bisher verfügbaren 3D-Verfahren zur räumlichen Rekonstruktion immer noch unzureichend.
Nach verschiedenen Ausführungsformen stellen zusätzliche Datenquellen wie standortbezogene Informationen, die verwendet, um MIDMRs zu generieren, wertvolle Informationen bereit, die die Fähigkeit der visuellen Erkennung und Suche verbessern. In bestimmten beispielhaften Ausführungsformen tragen zwei Komponenten einer MIDMR, der Kontext und der Inhalt, beide wesentlich zum visuellen Erkennungsprozess bei. In bestimmten beispielhaften Ausführungsformen kann die Verfügbarkeit dreidimensionaler Informationen, die der Inhalt bereitstellt, die Anzahl von Hypothesen, die ausgewertet werden müssen, um ein Abfrageobjekt oder einen Teil einer Szene zu erkennen, erheblich reduzieren. Nach verschiedenen Ausführungsformen können die dreidimensionale Information des Inhalts bei der Kategorisierung (d. h. die allgemeine Kategorie herausfinden, zu der ein Objekt gehört) helfen, und die zweidimensionale Texturinformation kann mehr über eine bestimmte Instanz des Objekts angeben. In vielen Fällen können die Kontextinformationen in einer MIDMR auch zur Kategorisierung eines Abfrageobjekts beitragen, indem der Typ der Szene erläutert wird, in der sich das Abfrageobjekt befindet.
Neben der Bereitstellung von Informationen, die verwendet werden können, eine bestimmte Instanz eines Objekts zu finden, sind MIDMRs auch nativ geeignet, um Fragen zu beantworten, wie: „Welche anderen Objekte ähneln in Form und Aussehen?“ Ähnlich den ersten N besten Übereinstimmungen, die als Antwort auf eine Websuchabfrage bereitgestellt werden, kann eine MIDMR mit Objektkategorisierungs- und -erkennungsalgorithmen verwendet werden, um in verschiedenen Beispielen die „genauesten Übereinstimmungen“ anzugeben.
Die visuelle Suche unter Verwendung von MIDMRs kann auf verschiedene Arten verwendet und/oder umgesetzt werden. In einem Beispiel kann die visuelle Suche mit MIDMRs bei der Objekterkennung für die Robotik verwendet werden. In einem anderen Beispiel kann die visuelle Suche mit MIDMRs bei der Verwaltung von Social Media verwendet werden. Insbesondere können durch Analysieren die MIDMR-Daten, die in verschiedenen sozialen Netzwerken bereitgestellt werden, und das Erkennen von Objekten und Teilen von Szenen, bessere #hashtag-Indizes automatisch erzeugt werden. Durch das Erzeugen dieser Art von Informationen können Feeds verwaltet und das Sucherlebnis verbessert werden.
Ein anderes Beispiel, bei dem die visuelle Suche mit MIDMRs verwendet werden kann, ist im Zusammenhang mit Einkäufen. Es kann als „Search and Shop“ bezeichnet werden. Insbesondere kann diese visuelle Suche die Erkennung von Elementen erlauben, die in Form und Aussehen ähnlich sind, aber zu anderen Preisen in anderen Geschäften in der Nähe verkauft werden. Zum Beispiel kann mit Bezug auf 21 eine visuelle Suchabfrage zu ähnlichen Produkten führen, die zum Kauf verfügbar sind.
Noch ein weiteres Beispiel, bei dem die visuelle Suche mit MIDMRs verwendet werden kann, ist im Zusammenhang mit Einkäufen. Es kann als „Search and Fit“ bezeichnet werden. Nach verschiedenen Ausführungsformen können, weil MIDMR-Inhalt dreidimensional ist, präzise Messungen extrahiert werden, und diese Informationen können verwendet werden, um zu bestimmen, ob ein bestimmtes Objekt, das in einer MIDMR dargestellt ist, in einen bestimmten Kontext passen würde (z. B. ein Schuh, der an einen Fuß passt, eine Lampe, die zu einem Raum passt, usw.).
In einem anderen Fall kann die visuelle Suche mit MIDMRs auch verwendet werden, bessere Marketing-Recommendation-Engines bereitzustellen. Durch die Analyse das Objekttypen, die in MIDMRs erscheinen, die von verschiedenen Benutzern erzeugt werden, kann beispielsweise die Frage „welche Art von Produkten verwenden Menschen tatsächlich im täglichen Leben?“ auf natürliche, private und nicht aufdringliche Weise beantwortet werden. Durch das Erfassen dieser Art von Informationen können verbesserte Empfehlungsmodule ermöglicht, unerwünschte Spam- oder Marketinganzeigen verringert und/oder verhindert werden, wodurch die Lebensqualität der meisten Nutzer erhöht wird. 16B illustriert eine Umsetzung, in der Empfehlungen nach verschiedenen Ausführungsformen der vorliegenden Offenbarung bereitgestellt werden können.
Mit Verweis auf 19 ist ein Beispiel eines Prozesses zum Bereitstellen einer visuellen Suche eines Objekts 1900 dargestellt, wobei die Suchabfrage eine MIDMR des Objekts enthält und die durchsuchten Daten dreidimensionale Modelle enthalten. Bei 1902 wird eine visuelle Suchabfrage empfangen, die eine erste MIDMR enthält. Diese erste MIDMR wird dann bei 1904 mit den gespeicherten MIDMRs verglichen. In einigen Ausführungsformen kann dieser Vergleich das Extrahieren erster Messinformationen für das Objekt in dem ersten MIDMR und das Vergleichen mit zweiten Messinformationen umfassen, die aus der einen oder den mehreren gespeicherten MIDMRs extrahiert wurden. Diese Art von Messinformationen kann beispielsweise zum Suchen von Gegenständen wie Kleidung, Schuhen oder Zubehör verwendet werden.
Als nächstes wird bestimmt, ob irgendwelche gespeicherten MIDMRs der ersten MIDMR bei 1906 entsprechen. In einigen Beispielen basiert diese Feststellung darauf, ob der Gegenstand in einer der gespeicherten MIDMRs eine ähnliche Form wie das Objekt in der ersten MIDMR aufweist. In anderen Beispielen wird diese Feststellung auf der Grundlage, ob ein Gegenstand in den gespeicherten MIDMRs ist ähnlich wie das Objekt in der ersten MIDMR aussieht, getroffen. In noch anderen Beispielen basiert diese Feststellung darauf, ob irgendein Inhalt der gespeicherten MIDMRs ähnliche Texturen enthält, die in der ersten MIDMR enthalten sind. In einigen Fällen basiert diese Feststellung darauf, ob irgendeiner der mit den gespeicherten MIDMRs verknüpften Kontexte mit dem Kontext des ersten MIDMR übereinstimmt. In einem anderen Beispiel basiert diese Feststellung darauf, ob die Messinformationen, die einer gespeicherten MIDMR zugeordnet sind, dimensional zu dem Objekt passen, das der ersten MIDMR zugeordnet ist. Natürlich kann jede dieser Grundlagen in Verbindung mit anderen verwendet werden.
Wenn diese Feststellung erfolgt, wird in 1908 eine Rangliste der passenden Ergebnisse erzeugt. In einigen Ausführungsformen wird eine Rangliste von passenden Ergebnissen erzeugt, die angibt, wie eng eine der gespeicherten MIDMRs dimensional in das mit der ersten Messinformation assoziierte Objekt passt. Nach verschiedenen Ausführungsformen kann diese Rangliste das Anzeigen von Thumbnails von Übereinstimmungsergebnissen umfassen. In einigen Beispielen können Links zu Einzelhändlern in die Thumbnails aufgenommen werden. Weiterhin können in einigen Anwendungen Informationen zu den übereinstimmenden Ergebnissen wie Name, Marke, Preis, Quellen usw. enthalten sein.
Obwohl das obige Beispiel die Verwendung einer MIDMR als visuelle Suchtanfrage enthält, um die gespeicherten MIDMRs oder dreidimensionalen Modelle zu durchsuchen, enthält die aktuelle Infrastruktur noch riesige Speicher zweidimensionaler Bilder. Das Internet bietet beispielsweise Zugang zu zahlreichen zweidimensionalen Bildern, die leicht zugänglich sind. Dementsprechend kann die Verwendung einer MIDMR zum Durchsuchen gespeicherter zweidimensionaler Bilder nach Übereinstimmungen eine nützliche Anwendung von MIDMRs mit der aktuellen zweidimensionalen Infrastruktur bereitstellen.
Mit Verweis auf 20 ist ein Beispiel eines Prozesses zum Bereitstellen einer visuellen Suche eines Objekts 2000 dargestellt, wobei die Suchabfrage eine MIDMR des Objekts enthält und die durchsuchten Daten zweidimensionale Bilder enthalten. Bei 2002 wird eine visuelle Suchabfrage empfangen, die eine erste MIDMR enthält. Als nächstes werden in 2004 Objektansichten aus der MIDMR ausgewählt. Insbesondere werden ein oder mehrere zweidimensionale Bilder aus der MIDMR ausgewählt. Da diese Objektansichten mit zweidimensionalen gespeicherten Bildern verglichen werden, kann die Auswahl mehrerer Ansichten die Wahrscheinlichkeit erhöhen, eine Übereinstimmung zu finden. Außerdem kann das Auswählen einer oder mehrerer Objektansichten aus der MIDMR das Auswählen von Objektansichten einschließen, die die Erkennung von charakteristischen Merkmalen des Objekts ermöglichen.
In dem vorliegenden Beispiel wird/werden die Objektansicht(en) dann in 2006 mit gespeicherten Bildern vergleichen. In einigen Ausführungsformen können ein oder mehrere der gespeicherten Bilder aus gespeicherten MIDMRs extrahiert werden. Diese gespeicherten MIDMRs können in einigen Beispielen aus einer Datenbank abgerufen werden. In verschiedenen Beispielen umfasst das Vergleichen der einen oder mehreren Objektansichten mit den gespeicherten Bildern das Vergleichen der Form des Objekts in der MIDMR mit den gespeicherten Bildern. In anderen Beispielen umfasst das Vergleichen der einen oder der mehreren Objektansichten mit den gespeicherten Bildern das Vergleichen des Erscheinungsbildes des Objekts in der MIDMR mit den gespeicherten Bildern. Ferner kann das Vergleichen der einen oder der mehreren Objektansichten mit den gespeicherten Bildern das Vergleichen der Textur des Objekts in der MIDMR mit den gespeicherten Bildern umfassen. In einigen Ausführungsformen umfasst das Vergleichen der einen oder der mehreren Objektansichten mit den gespeicherten Bildern das Vergleichen des Kontexts des Objekts in die MIDMR mit den gespeicherten Bildern. Natürlich können alle dieser Kriterien auch in Kombination miteinander verwendet werden.
Als nächstes wird bestimmt, ob irgendwelche gespeicherten Bilder das Objektansicht(en) bei 2008 entsprechen. Wenn diese Feststellung erfolgt, wird in 2010 eine Rangliste der passenden Ergebnisse erzeugt. Nach verschiedenen Ausführungsformen kann diese Rangliste das Anzeigen von Thumbnails von Übereinstimmungsergebnissen umfassen. In einigen Beispielen können Links zu Einzelhändlern in die Thumbnails aufgenommen werden. Weiterhin können in einigen Anwendungen Informationen zu den übereinstimmenden Ergebnissen wie Name, Marke, Preis, Quellen usw. enthalten sein.
Mit Verweis auf 21 ist ein Beispiel eines visuellen Suchprozesses 2100 dargestellt. In dem vorliegenden Beispiel werden in 2102 Bilder erhalten. Diese Bilder können von einem Benutzer erfasst oder aus gespeicherten Dateien abgerufen werden. Als Nächstes wird nach verschiedenen Ausführungsformen eine MIDMR basierend auf den Bildern erzeugt. Diese MIDMR wird dann als visuelle Suchkriterien verwendet, die in 2104 vorgelegt wird. In diesem Beispiel kann eine MIDMR verwendet werden, um Fragen wie „Welche anderen Objekte in einer Datenbank sehen aus wie das Anfrageobjekt?“ zu beantworten. Wie dargestellt, können MIDMRs helfen, das visuelle Suchparadigma von der Suche nach anderen „Bildern, die wie eine Anfrage aussehen“ auf die Suche nach anderen „Objekten, die wie die Anfrage aussehen“ zu verschieben, da die semantischen Informationsmöglichkeiten besser sind. Wie in Bezug auf die 19 und 20 oben dargestellt, kann die MIDMR dann mit den gespeicherten MIDMRs oder Bildern verglichen werden, und eine Liste von übereinstimmenden Ergebnissen kann in 2106 bereitgestellt werden.
Obwohl die vorherigen Beispiele der visuellen Suche die Verwendung von MIDMRs als Suchanfragen mit einschließen, kann es in einigen Ausführungsformen auch nützlich sein, Suchanfragen für zweidimensionale Bilder bereitzustellen. Mit Verweis auf 22 ist ein Beispiel eines Prozesses zum Bereitstellen einer visuellen Suche eines Objekts 2200, wobei die Suchabfrage eine zweidimensionale Ansicht des Objekts enthält und die durchsuchten Daten eine oder mehrere MIDMR(s) enthält, gezeigt. In 2202 wird eine visuelle Suchabfrage empfangen, die eine zweidimensionale Ansicht eines zu durchsuchenden Objekts enthält. In einigen Beispielen wird die zweidimensionale Ansicht von einer Objekt-MIDMR erhalten, wobei die Objekt-MIDMR ein dreidimensionales Modell des Objekts enthält. Als nächstes wird die zweidimensionale Ansicht in 2204 mit den MIDMRs verglichen. In einigen Beispielen kann die zweidimensionale Ansicht mit einer oder mehreren Inhaltsansichten in den MIDMRs verglichen werden. Insbesondere kann die zweidimensionale Darstellung mit einem oder mehreren zweidimensionalen Bildern aus der extrahierten MIDMRs aus unterschiedlichen Sichtwinkeln verglichen werden. Nach verschiedenen Beispielen entsprechen die aus den MIDMRs extrahierten zweidimensionalen Bilder Sichtwinkeln, die die Erkennung von charakteristischen Merkmalen des Inhalts ermöglichen. In anderen Beispielen umfasst das Vergleichen der zweidimensionalen Ansicht mit einer oder mehreren MIDMRs das Vergleichen der zweidimensionalen Ansicht mit einem oder mehreren Inhaltsmodellen. Zum Vergleichen der Bilder oder Modelle können verschiedene Kriterien verwendet werden, z. B. Form, Aussehen, Textur und Kontext des Objekts. Natürlich können alle dieser Kriterien auch in Kombination miteinander verwendet werden.
Mit Verweis auf 23 wird ein bestimmtes Beispiel eines Computersystems gezeigt, das verwendet werden kann, um bestimmte Beispiele der vorliegenden Offenbarung umzusetzen. Zum Beispiel kann das Computersystem 2300 verwendet werden, um MIDMRs nach verschiedenen oben beschriebenen Ausführungsformen bereitzustellen. Nach bestimmten beispielhaften Ausführungsformen umfasst ein System 2300, das zum Umsetzen bestimmter Ausführungsformen der vorliegenden Offenbarung geeignet ist, einen Prozessor 2301, einen Speicher 2303, eine Beschleunigung 2305, eine Schnittstelle 2311 und ein Bus 2315 (z. B. einen PCI-Bus oder einer anderen Verbindungsstruktur). Die Schnittstelle 2311 kann separate Eingabe- und Ausgabeschnittstellen enthalten oder kann eine vereinheitlichte Schnittstelle sein, die beide Operationen unterstützt. Wenn der Prozessor 2301 unter der Kontrolle einer geeigneten Software oder Firmware arbeitet, ist er für solche Aufgaben wie beispielsweise die Optimierung verantwortlich. Anstelle eines Prozessors 2301 oder zusätzlich zu dem Prozessor 2301 können auch verschiedene speziell konfigurierte Vorrichtungen verwendet werden. Die vollständige Umsetzung kann auch in herkömmlicher Hardware erfolgen. Die Schnittstelle 2311 ist typischerweise konfiguriert, um Datenpakete oder Datensegmente über ein Netzwerk zu senden und zu empfangen. Besondere Beispiele für Schnittstellen, die das Gerät unterstützt, sind Ethernet-Schnittstellen, Frame Relay-Schnittstellen, Kabelschnittstellen, DSL-Schnittstellen, Token-Ring-Schnittstellen und dergleichen.
Zusätzlich können verschiedene Höchstgeschwindigkeitsschnittstellen wie Fast-Ethernet-Schnittstellen, Gigabit-Ethemet-Schnittstellen, ATM-Schnittstellen, HSSI-Schnittstellen, POS-Schnittstellen, FDDI-Schnittstellen und dergleichen bereitgestellt werden. Im Allgemeinen können diese Schnittstellen Ports enthalten, die für die Kommunikation mit den entsprechenden Medien geeignet sind. In einigen Fällen können sie auch einen unabhängigen Prozessor und in einigen Fällen einen flüchtigen RAM enthalten. Die unabhängigen Prozessoren können kommunikationsintensive Aufgaben wie Paketvermittlung, Mediensteuerung und-Verwaltung steuern.
Nach bestimmten beispielhaften Ausführungsformen verwendet das System 2300 den Speicher 2303 zum Speichern von Daten und Programmbefehlen und hat einen lokalen Cache unterhalten. Die Programmanweisungen können zum Beispiel den Betrieb eines Betriebssystems und/oder einer oder mehrerer Anwendungen steuern. Der Speicher oder die Speicher können auch konfiguriert sein, um empfangene Metadaten und Batch-angeforderte Metadaten zu speichern.
Bei einigen Ausführungsform System 2300 ferner eine Einheit umfasst Grafikverarbeitung (GPU) 2309. Wie oben beschrieben, kann die GPU 2309 umgesetzt sein, um jedes Pixel auf einem separaten Thread zu berechnen und zu bestimmen. In einigen Ausführungsformen umfasst das System 2300 ferner einen Beschleuniger 2305. In verschiedenen Ausführungsformen ist der Beschleuniger 2305 ein Rendering-Beschleuniger-Chip, der von der Grafikverarbeitungseinheit getrennt sein kann. Der Beschleuniger 2305 kann konfiguriert sein, um die Verarbeitung für das Gesamtsystem 2300 durch paralleles Verarbeiten von Pixeln zu beschleunigen, um eine Überlastung des Systems 2300 zu verhindern. Zum Beispiel können in bestimmten Fällen ultrahochauflösende Bilder verarbeitet werden, die viele Pixel enthalten, z. B. DCI-4K- oder UHD-1-Auflösung. In solchen Fällen können überschüssige Pixel mehr sein, als auf einem Standard-GPU-Prozessor wie der GPU 2309 verarbeitet werden können. In einigen Ausführungsformen kann der Beschleuniger 2305 nur verwendet werden, wenn hohe Systemlasten erwartet oder erkannt werden.
Bei einigen Ausführungsformen kann der Beschleuniger 2305 ein Hardwarebeschleuniger in einer von der CPU separaten Einheit sein, wie beispielsweise der Prozessor 2301. Der Beschleuniger 2305 kann automatische Parallelisierungsfähigkeiten aktivieren, um möglicherweise mehrere Prozessoren gleichzeitig in einer Multiprozessormaschine mit geteiltem Speicher zu verwenden. Der Kern der Architektur des Beschleunigers 2305 kann eine Hybridkonstruktion sein, die Einheiten mit fester Funktion verwendet, bei denen die Operationen sehr gut definiert sind, und programmierbare Einheiten, bei denen Flexibilität erforderlich ist. In verschiedenen Ausführungsformen kann der Beschleuniger 2305 konfiguriert sein, um eine höhere Leistung und Erweiterungen in APIs, insbesondere OpenGL 2 und DX9, zu ermöglichen. Die hierin beschriebenen Systeme und Verfahren bieten viele Vorteile, einschließlich Verbesserungen der tatsächlichen Computer selbst. Die Generierung der interaktiven Mehrfachansicht digitaler Mediendarstellungen wird ohne Polygon- und/oder Texturierungsparameter gespeichert. Somit erfordert das Navigieren verschiedener Ansichten der interaktiven digitalen Mediendarstellungen auf einer Betrachtungsvorrichtung im Vergleich zu 3D-Modellen, die mit herkömmlichen Mitteln erzeugt werden, weniger Rechenleistung. Weniger Rechenleistung bedeutet schnellere Übergänge ohne Verzögerung und glattere Übergänge. Darüber hinaus können Vorrichtungen der unteren Preisklasse mit weniger Rechenleistung und weniger Rechenressourcen, die verhindern, dass herkömmliche 3D-Modelle mit hoher Qualität ordnungsgemäß angezeigt werden, die interaktiven digitalen Medien mit mehreren Ansichten darstellen, während die Benutzererfahrung von hoher Qualität erhalten bleibt.
Da solche Informationen und Programmanweisungen verwendet werden können, die Systeme/Verfahren, die hierin beschrieben sind, umzusetzen, bezieht sich die vorliegende Offenbarung auf greifbare, maschinenlesbare Medien, die Programmanweisungen, Zustandsinformationen usw. für die verschiedenen hierin beschriebenen Operationen enthalten. Beispiele für maschinenlesbare Medien umfassen Festplatten, Disketten, Magnetbänder, optische Medien wie CD-ROM-Platten und DVDs; magnetooptische Medien wie optische Disketten und Hardwarevorrichtungen, die speziell konfiguriert sind, um Programmanweisungen zu speichern und auszuführen, wie beispielsweise Speichervorrichtungen für reinen Lesezugriff (ROM) und programmierbare Speichervorrichtungen für reinen Lesezugriff (PROMs). Beispiele für Programmanweisungen umfassen sowohl Maschinencode, wie er beispielsweise von einem Compiler erzeugt wird, sowie Dateien, die Code höherer Ebene enthalten, der vom Computer unter Verwendung eines Interpreters ausgeführt werden kann.
Obwohl viele der Komponenten und Prozesse oben zur Vereinfachung im Singular beschrieben wurden, ist es für den Fachmann ersichtlich, dass mehrere Komponenten und wiederholte Prozesse ebenfalls zum Durchführen der Techniken der vorliegenden Offenbarung verwendet werden können.
Während die vorliegende Erfindung insbesondere mit Verweis auf spezifische Ausführungsformen davon gezeigt und beschrieben wurde, werden Fachleute auf dem Gebiet verstehen, dass Änderungen an der Form und den Einzelheiten der offenbarten Ausführungsformen vorgenommen werden können, ohne vom Geist oder Umfang der Offenbarung abzuweichen. Es ist daher beabsichtigt, dass die Offenbarung dahingehend interpretiert wird, dass sie alle Variationen und Äquivalente umfasst, die in den wahren Geist und Umfang der vorliegenden Offenbarung fallen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 15620506 [0001]
US 62377516 [0001]
US 14/800638 [0001]

Claims

Verfahren, umfassend: Erhalten einer ersten Multi-View-Interaktiven-Digitale-Medien-Darstellung eines dynamischen Objekts in einem Hintergrund; Markieren des dynamischen Objekts in der ersten Multi-View-Interaktiven-Digitale-Medien-Darstellung mit einem ersten Tag, wobei das erste Tag das dynamische Objekt identifiziert; Erzeugen einer zweiten Multi-View-Interaktiven-Digitale-Medien-Darstellung des dynamischen Objekts, wobei die zweite Multi-View-Interaktiven-Digitale-Medien-Darstellung anzeigt, dass sich das dynamische Objekt von einem ersten Ort zu einem zweiten Ort bewegt hat; und automatisches Identifizieren und Markieren des dynamischen Objekts in der zweiten Multi-View-Interaktiven-Digitale-Medien-Darstellung mit einem zweiten Tag, wobei das zweite Tag dem ersten Tag entspricht.
Verfahren nach Anspruch 1, wobei die erste Multi-View-Interaktiven-Digitale-Medien-Darstellung einen ersten Betrachtungswinkel des Hintergrunds darstellt.
Verfahren nach Anspruch 1, wobei die zweite Multi-View-Interaktiven-Digitale-Medien-Darstellung einen zweiten Betrachtungswinkel des Hintergrunds darstellt.
Verfahren nach Anspruch 1, wobei die zweite Multi-View-Interaktiven-Digitale-Medien-Darstellung das dynamische Objekt aus einem unterschiedlichen Winkel sowie von einem anderen Ort als dem dynamischen Objekt in der ersten Multi-View-Interaktiven-Digitale-Medien-Darstellung darstellt.
Verfahren nach Anspruch 1, wobei das erste und das zweite Tag den gleichen Text oder Titel zum Identifizieren des dynamischen Objekts enthalten.
Verfahren nach Anspruch 1, wobei das erste Tag auf einen ersten Ort in der ersten Multi-View-Interaktiven-Digitale-Medien-Darstellung abgebildet wird.
Verfahren nach Anspruch 1, wobei das zweite Tag auf einen zweiten Ort in der zweiten Multi-View-Interaktiven-Digitale-Medien-Darstellung abgebildet wird, entsprechend dem Ausmaß, in dem sich das dynamische Objekt von der ersten Multi-View-Interaktiven-Digitale-Medien-Darstellung zur zweiten Multi-View-Interaktiven-Digitale-Medien-Darstellung bewegt hat.
System, umfassend: einen Prozessor; und einen Speicher mit Anweisungen zum Ausführen eines Verfahrens, wobei das Verfahren umfasst: Erhalten einer ersten Multi-View-Interaktiven-Digitale-Medien-Darstellung eines dynamischen Objekts in einem Hintergrund; Markieren des dynamischen Objekts in der ersten Multi-View-Interaktiven-Digitale-Medien-Darstellung mit einem ersten Tag, wobei das erste Tag das dynamische Objekt identifiziert; Erzeugen einer zweiten Multi-View-Interaktiven-Digitale-Medien-Darstellung des dynamischen Objekts, wobei die zweite Multi-View-Interaktiven-Digitale-Medien-Darstellung anzeigt, dass sich das dynamische Objekt von einem ersten Ort zu einem zweiten Ort bewegt hat; und automatisches Identifizieren und Markieren des dynamischen Objekts in der zweiten Multi-View-Interaktiven-Digitale-Medien-Darstellung mit einem zweiten Tag, wobei das zweite Tag dem ersten Tag entspricht.
System nach Anspruch 8, wobei die erste Multi-View-Interaktiven-Digitale-Medien-Darstellung einen ersten Betrachtungswinkel des Hintergrunds darstellt.
System nach Anspruch 8, wobei die zweite Multi-View-Interaktiven-Digitale-Medien-Darstellung einen zweiten Betrachtungswinkel des Hintergrunds darstellt.
System nach Anspruch 8, wobei die zweite Multi-View-Interaktiven-Digitale-Medien-Darstellung das dynamische Objekt aus einem unterschiedlichen Winkel sowie von einem anderen Ort als dem dynamischen Objekt in der ersten Multi-View-Interaktiven-Digitale-Medien-Darstellung darstellt.
System nach Anspruch 8, wobei das erste und das zweite Tag den gleichen Text oder Titel zum Identifizieren des dynamischen Objekts enthalten.
System nach Anspruch 8, wobei das erste Tag auf einen ersten Ort in der ersten interaktiven Multi-View-Digitalmediendarstellung abgebildet wird .
System nach Anspruch 8, wobei das zweite Tag auf einen zweiten Ort in der zweiten Multi-View-Interaktiven-Digitale-Medien-Darstellung abgebildet wird, entsprechend dem Ausmaß, in dem sich das dynamische Objekt von der ersten Multi-View-Interaktiven-Digitale-Medien-Darstellung zur zweiten Multi-View-Interaktiven-Digitale-Medien-Darstellung bewegt hat.
Nicht-flüchtiges computerlesbares Medium, umfassend Anweisungen, um ein Verfahren auszuführen, das Verfahren umfassend: Erhalten einer ersten Multi-View-Interaktiven-Digitale-Medien-Darstellung eines dynamischen Objekts in einem Hintergrund; Markieren des dynamischen Objekts in der ersten Multi-View-Interaktiven-Digitale-Medien-Darstellung mit einem ersten Tag, wobei das erste Tag das dynamische Objekt identifiziert; Erzeugen einer zweiten Multi-View-Interaktiven-Digitale-Medien-Darstellung des dynamischen Objekts, wobei die zweite Multi-View-Interaktiven-Digitale-Medien-Darstellung anzeigt, dass sich das dynamische Objekt von einem ersten Ort zu einem zweiten Ort bewegt hat; und automatisches Identifizieren und Markieren des dynamischen Objekts in der zweiten Multi-View-Interaktiven-Digitale-Medien-Darstellung mit einem zweiten Tag, wobei das zweite Tag dem ersten Tag entspricht.
Nicht-flüchtiges computerlesbares Medium nach Anspruch 15, wobei die erste Multi-View-Interaktiven-Digitale-Medien-Darstellung einen ersten Betrachtungswinkel des Hintergrunds darstellt.
Nicht-flüchtiges computerlesbares Medium nach Anspruch 15, wobei die zweite Multi-View-Interaktiven-Digitale-Medien-Darstellung einen zweiten Betrachtungswinkel des Hintergrunds darstellt.
Nicht-flüchtiges computerlesbares Medium nach Anspruch 15, wobei die zweite Multi-View-Interaktiven-Digitale-Medien-Darstellung das dynamische Objekt aus einem unterschiedlichen Winkel sowie von einem anderen Ort als dem dynamischen Objekt in der ersten Multi-View-Interaktiven-Digitale-Medien-Darstellung darstellt..
Nicht-flüchtiges computerlesbares Medium nach Anspruch 15, wobei das erste und das zweite Tag den gleichen Text oder Titel zum Identifizieren des dynamischen Objekts enthalten.
Nicht-flüchtiges computerlesbares Medium nach Anspruch 15, wobei das erste Tag auf einen ersten Ort in der ersten Multi-View-Interaktiven-Digitale-Medien-Darstellung abgebildet wird das zweite Tag auf einen zweiten Ort in der zweiten Multi-View-Interaktiven-Digitale-Medien-Darstellung abgebildet wird, entsprechend dem Ausmaß, in dem sich das dynamische Objekt von der ersten Multi-View-Interaktiven-Digitale-Medien-Darstellung zur zweiten Multi-View-Interaktiven-Digitale-Medien-Darstellung bewegt hat.