DE112020001322T5 - Eine szene darstellendes bildsignal - Google Patents

Eine szene darstellendes bildsignal Download PDF

Info

Publication number
DE112020001322T5
DE112020001322T5 DE112020001322.7T DE112020001322T DE112020001322T5 DE 112020001322 T5 DE112020001322 T5 DE 112020001322T5 DE 112020001322 T DE112020001322 T DE 112020001322T DE 112020001322 T5 DE112020001322 T5 DE 112020001322T5
Authority
DE
Germany
Prior art keywords
image
pixel
combined
images
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112020001322.7T
Other languages
English (en)
Inventor
Bartholomeus Wilhelmus Damianus van Geest
Bart Kroon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of DE112020001322T5 publication Critical patent/DE112020001322T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Computing Systems (AREA)
  • Image Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Generation (AREA)
  • Studio Circuits (AREA)

Abstract

Das Erzeugen eines Bildsignals umfasst einen Empfänger (401), der Quellbilder empfängt, die eine Szene darstellen. Ein kombinierter Bildgenerator (403) erzeugt kombinierte Bilder aus den Quellbildern. Jedes kombinierte Bild ist nur von Teilen von mindestens zwei Bildern der Quellbilder abgeleitet. Ein Auswerter (405) bestimmt Vorhersagequalitätsmaße für Elemente der Quellbilder, wobei das Vorhersagequalitätsmaß für ein Element eines ersten Quellbildes eine Differenz zwischen Pixelwerten in dem ersten Quellbild und vorhergesagten Pixelwerten für Pixel in dem Element angibt. Die vorhergesagten Pixelwerte sind Pixelwerte, die sich aus der Vorhersage von Pixeln aus den kombinierten Bildern ergeben. Ein Bestimmer (407) bestimmt Segmente der Quellbilder, die Elemente umfassen, für die das Vorhersagequalitätsmaß eine Differenz über einem Schwellenwert angibt. Ein Bildsignalgenerator (409) erzeugt ein Bildsignal, das Bilddaten umfasst, die kombinierten Bilder und die Segmente der Quellbilder darstellen.

Description

  • GEBIET DER ERFINDUNG
  • Die Erfindung betrifft ein eine Szene darstellendes Bildsignal und insbesondere, jedoch nicht ausschließlich, die Erzeugung eines eine Szene darstellenden Bildsignals und das Rendering von Bildern aus diesem Bildsignal im Rahmen einer Virtual-Reality-Anwendung.
  • HINTERGRUND DER ERFINDUNG
  • Die Vielfalt und die Bandbreite von Bild-und Videoanwendungen haben sich in den letzten Jahren wesentlich erhöht, wobei neue Dienste und Wege zur Nutzung und zum Konsum von Video kontinuierlich entwickelt und eingeführt werden.
  • Ein zunehmend populärer Dienst ist beispielsweise die Bereitstellung von Bildsequenzen derart, dass der Betrachter aktiv und dynamisch mit dem System interagieren kann, um Parameter des Renderings zu verändern. Ein in vielen Anwendungen sehr ansprechendes Merkmal ist die Möglichkeit, die effektive Betrachtungsposition und Betrachtungsrichtung des Betrachters zu verändern, wie beispielsweise dem Betrachter zu ermöglichen, sich in der darzustellenden Szene zu bewegen und „umzuschauen“.
  • Ein solches Merkmal kann insbesondere ermöglichen, dass einem Benutzer eine Virtual-Reality-Erfahrung bereitgestellt wird. Dadurch kann dem Benutzer ermöglicht werden, sich z. B. (relativ) frei in einer virtuellen Umgebung zu bewegen und seine Position und seine Betrachtungsrichtung dynamisch zu verändern. Typischerweise basieren solche Virtual-Reality-Anwendungen auf einem dreidimensionalen Modell der Szene, wobei das Modell dynamisch ausgewertet wird, um die spezifische angeforderte Ansicht bereitzustellen. Dieser Ansatz ist z. B. aus Spieleanwendungen, z. B. aus der Kategorie der Ego-Shooter, für Computer und Konsolen bekannt.
  • Insbesondere für Virtual-Reality-Anwendungen ist es auch wünschenswert, dass das darzustellende Bild ein dreidimensionales Bild ist. Tatsächlich wird es, um das Eintauchen des Betrachters zu optimieren, in der Regel bevorzugt, dass der Benutzer die präsentierte Szene als dreidimensionale Szene erlebt. Tatsächlich sollte eine Virtual-Reality-Erfahrung einem Benutzer vorzugsweise ermöglichen, seine eigene Position, seinen eigenen Kamerabetrachtungspunkt und seinen eigenen Zeitpunkt relativ zu einer virtuellen Welt auszuwählen.
  • Typischerweise sind Virtual-Reality-Anwendungen insofern an sich eingeschränkt, als sie auf einem vorbestimmten Modell der Szene und typischerweise auf einem künstlichen Modell einer virtuellen Welt basieren. Oft ist es wünschenswert, dass eine Virtual-Reality-Erfahrung basierend auf der Erfassung der realen Welt bereitgestellt wird. In vielen Fällen ist ein solcher Ansatz jedoch eingeschränkt oder setzt voraus, dass aus den Erfassungen der realen Welt ein virtuelles Modell aufgebaut wird. Durch Auswertung dieses Modells wird dann die Virtual-Reality-Erfahrung erzeugt.
  • Die aktuellen Ansätze sind jedoch tendenziell suboptimal und neigen häufig dazu, einen hohen Rechen-oder Kommunikationsressourcenbedarf aufzuweisen und/oder eine suboptimale Benutzererfahrung mit z. B. reduzierter Qualität oder eingeschränkter Freiheit bereitzustellen.
  • In vielen Systemen, wie insbesondere, wenn diese auf einer realen Szene basieren, wird eine Bilddarstellung der Szene bereitgestellt, wobei die Bilddarstellung Bilder und Tiefe für einen oder mehrere Erfassungspunkte/Betrachtungspunkte in der Szene einschließt. Die Darstellung von Bild plus Tiefe stellt eine überaus effiziente Charakterisierung insbesondere einer realen Szene bereit, wobei die Charakterisierung nicht nur relativ einfach durch Erfassen der realen Szene zu erzeugen ist, sondern sich auch hervorragend für einen Renderer eignet, der Ansichten für andere als die erfassten Betrachtungspunkte synthetisiert. Zum Beispiel kann ein Renderer angeordnet sein, um Ansichten dynamisch zu erzeugen, die mit einer aktuellen lokalen Betrachterpose übereinstimmen. Beispielsweise kann eine Betrachterpose dynamisch bestimmt werden, und Ansichten können dynamisch erzeugt werden, um mit dieser Betrachterpose basierend auf den bereitgestellten Bildern und z. B. Tiefenkarten übereinzustimmen.
  • Derartige Bilddarstellungen führen jedoch bei gegebener Bildqualität tendenziell zu einer sehr hohen Datenrate. Um eine gute Erfassung der Szene bereitzustellen und insbesondere Okklusionserscheinungen zu begegnen, ist es erwünscht, dass die Szene aus Erfassungspositionen sowohl nahe beieinander als auch über eine großen Bandbreite an Positionen erfasst wird. Dementsprechend ist eine relativ hohe Anzahl von Bildern erwünscht. Ferner überlappen sich die Erfassungsbetrachtungsfenster für die Kameras oft, und daher neigt der Satz von Bildern dazu, eine große Menge redundanter Informationen einzuschließen. Solche Probleme sind tendenziell unabhängig von der spezifischen Erfassungskonfiguration und insbesondere davon, ob lineare oder z. B. kreisförmige Erfassungskonfigurationen verwendet werden.
  • Wenngleich viele der herkömmlichen Bilddarstellungen und -formate in vielen Anwendungen und Diensten eine gute Leistung bereitstellen können, neigen sie zumindest unter Umständen dazu, suboptimal zu sein.
  • Daher wäre ein verbesserter Ansatz zur Verarbeitung und Erzeugung eines Bildsignals, das eine Bilddarstellung einer Szene umfasst, vorteilhaft. Insbesondere wären ein System und/oder Ansatz vorteilhaft, die einen verbesserten Betrieb, erhöhte Flexibilität, verbesserte Virtual-Reality-Erfahrung, reduzierte Datenraten, erhöhte Effizienz, erleichterte Verteilung, reduzierte Komplexität, erleichterte Implementierung, reduzierte Speicheranforderungen, erhöhte Bildqualität, verbessertes Rendering, verbesserte Benutzererfahrung, verbesserten Kompromiss zwischen Bildqualität und Datenrate und/oder eine verbesserte Leistung und/oder einen verbesserten Betrieb ermöglichen.
  • KURZDARSTELLUNG DER ERFINDUNG
  • Dementsprechend versucht die Erfindung, vorzugsweise einen oder mehrere der oben erwähnten Nachteile einzeln oder in irgendeiner Kombination abzuschwächen, zu lindern oder zu eliminieren.
  • Gemäß einem Aspekt der Erfindung wird eine Einichtung zum Erzeugen eines Bildsignals bereitgestellt, wobei die Einrichtung umfasst: einen Empfänger zum Empfangen einer Vielzahl von Quellbildern, die eine Szene aus unterschiedlichen Betrachtungsposen darstellen; einen kombinierten Bildgenerator zum Erzeugen einer Vielzahl von kombinierten Bildern aus den Quellbildern, wobei jedes kombinierte Bild aus einem Satz von mindestens zwei Quellbildern der Vielzahl von Quellbildern abgeleitet ist, wobei jedes Pixel eines kombinierten Bildes die Szene für eine Strahlpose darstellt und die Strahlposen für jedes kombinierte Bild mindestens zwei unterschiedliche Positionen einschließen, wobei eine Strahlpose für ein Pixel eine Pose für einen Strahl in einer Betrachtungsrichtung für das Pixel und von einer Betrachtungsposition für das Pixel darstellt; einen Auswerter zum Bestimmen von Vorhersagequalitätsmaßen für Elemente der Vielzahl von Quellbildern, wobei ein Vorhersagequalitätsmaß für ein Element eines ersten Quellbildes eine Differenz zwischen Pixelwerten in dem ersten Quellbild für Pixel in dem Element und vorhergesagten Pixelwerten für Pixel in dem Element angibt, wobei die vorhergesagten Pixelwerte Pixelwerte sind, die aus der Vorhersage von Pixeln in dem Element aus der Vielzahl von kombinierten Bildern resultieren; einen Bestimmer zum Bestimmen von Segmenten der Quellbilder, die Elemente umfassen, für die das Vorhersagequalitätsmaß eine Differenz über einem Schwellenwert angibt; und einen Bildsignalgenerator zum Erzeugen eines Bildsignals, das Bilddaten, die kombinierten Bilder darstellen, und Bilddaten, die Segmente der Quellbilder darstellen, umfasst.
  • Die Erfindung kann eine verbesserte Darstellung einer Szene bereitstellen und kann in vielen Ausführungsformen und Szenarien eine verbesserte Bildqualität von gerenderten Bildern gegenüber der Datenrate des Bildsignals bereitstellen. In vielen Ausführungsformen kann eine effizientere Darstellung einer Szene bereitgestellt werden, z. B. um zu ermöglichen, dass eine gegebene Qualität durch eine reduzierte Datenrate erreicht wird. Der Ansatz kann einen flexibleren und effizienteren Ansatz zum Rendern von Bildern einer Szene bereitstellen und kann eine verbesserte Anpassung an z. B. die Szeneneigenschaften ermöglichen.
  • Der Ansatz kann in vielen Ausführungsformen eine Bilddarstellung einer Szene verwenden, die für eine flexible, effiziente und hochleistungsfähige Anwendung der virtuellen Realität (VR) geeignet ist. In vielen Ausführungsformen kann sie eine VR-Anwendung mit einem wesentlich verbesserten Kompromiss zwischen Bildqualität und Datenrate zulassen oder ermöglichen. In vielen Ausführungsformen kann sie eine verbesserte wahrgenommene Bildqualität und/oder eine reduzierte Datenrate ermöglichen.
  • Der Ansatz kann beispielsweise geeignet sein, Videodienste zu übermitteln, die eine Anpassung an Bewegung und Kopfdrehung auf der Empfangsseite unterstützen.
  • Die Quellbilder können insbesondere Lichtintensitätsbilder mit zugehörigen Tiefeninformationen wie Tiefenkarten sein.
  • Der Ansatz kann insbesondere ermöglichen, kombinierte Bilder für Vordergrund- bzw. Hintergrundinformationen zu optimieren, wobei die Segmente zusätzliche Daten bereitstellen, wenn dies jeweils angemessen ist.
  • Der Bildsignalgenerator kann angeordnet sein, um eine effizientere Codierung der kombinierten Bilder als der Segmente zu verwenden. Die Segmente können jedoch typischerweise einen relativ geringen Anteil der Daten der kombinierten Bilder darstellen.
  • Gemäß einem optionalen Merkmal der Erfindung ist der kombinierte Bildgenerator angeordnet, um mindestens ein erstes kombiniertes Bild der Vielzahl von kombinierten Bildern durch Betrachtungssynthese von Pixeln des ersten kombinierten Bildes aus der Vielzahl von Quellbildern zu erzeugen, wobei jedes Pixel des ersten kombinierten Bildes die Szene für eine Strahlpose darstellt und die Strahlposen für das erste Bild mindestens zwei unterschiedliche Positionen umfassen.
  • Dies kann in vielen Ausführungsformen einen besonders vorteilhaften Betrieb bereitstellen und kann z. B. ermöglichen, dass die kombinierten Bilder für Betrachtungsposen erzeugt werden, in denen sie (typischerweise in Kombination) eine besonders vorteilhafte Darstellung der Szene bereitstellen können.
  • Gemäß einem optionalen Merkmal der Erfindung ist ein Skalarprodukt zwischen einem vertikalen Vektor und Pixelkreuzproduktvektoren für mindestens 90 % von Pixeln des ersten kombinierten Bildes nicht negativ, wobei ein Pixelkreuzproduktvektor für ein Pixel ein Kreuzprodukt zwischen einer Strahlrichtung für ein Pixel und einem Vektor von einem Mittelpunkt für die unterschiedlichen Betrachtungsposen zu einer Strahlposition für das Pixel ist.
  • Dadurch kann in vielen Ausführungsformen eine besonders effiziente und vorteilhafte Erzeugung kombinierter Bilder bereitgestellt werden. Dadurch kann insbesondere ein Ansatz mit geringer Komplexität zum Bestimmen eines kombinierten Bildes bereitgestellt werden, der eine vorteilhafte Darstellung von Hintergrunddaten bereitstellt, indem tendenziell eine Betrachtung bereitgestellt wird, die in Richtung einer Seitenbetrachtung geneigt ist.
  • Gemäß einem optionalen Merkmal der Erfindung ist der kombinierte Bildgenerator angeordnet, um mindestens ein zweites kombiniertes Bild der Vielzahl von kombinierten Bildern durch Betrachtungssynthese von Pixeln des zweiten kombinierten Bildes aus der Vielzahl von Quellbildern zu erzeugen, wobei jedes Pixel des zweiten kombinierten Bildes die Szene für eine Strahlpose darstellt und die Strahlposen für das zweite Bild mindestens zwei unterschiedliche Positionen umfassen; und wobei ein Skalarprodukt zwischen dem vertikalen Vektor und Pixelkreuzproduktvektoren für mindestens 90 % von Pixeln des zweiten kombinierten Bildes nicht positiv ist.
  • Dadurch kann in vielen Ausführungsformen eine besonders effiziente und vorteilhafte Erzeugung kombinierter Bilder bereitgestellt werden. Dadurch kann insbesondere ein Ansatz mit geringer Komplexität zum Bestimmen eines kombinierten Bildes bereitgestellt werden, der eine vorteilhafte Darstellung von Hintergrunddaten bereitstellt, indem tendenziell Betrachtungen bereitgestellt werden, die in Richtung unterschiedlicher Seitenbetrachtungen geneigt ist.
  • Gemäß einem optionalen Merkmal der Erfindung sind die Strahlposen des ersten kombinierten Bildes so ausgewählt, dass sie nahe an einer Grenze eines Bereichs liegen, der die unterschiedlichen Betrachtungsposen der Vielzahl von Quellbildern umfasst.
  • Dies kann in vielen Ausführungsformen einen vorteilhaften Betrieb bereitstellen und kann z. B. verbesserte Hintergrundinformationen durch das Bildsignal bereitstellen, wodurch die Betrachtungssynthese basierend auf dem Bildsignal erleichtert und/oder verbessert wird.
  • Gemäß einem optionalen Merkmal der Erfindung wird bestimmt, dass jede der Strahlposen des ersten kombinierten Bildes kleiner als ein erster Abstand von einer Grenze eines Bereichs ist, der die unterschiedlichen Betrachtungsposen der Vielzahl von Quellbildern umfasst, wobei der erste Abstand nicht mehr als 50 % eines maximalen inneren Abstands zwischen Punkten auf der Grenze beträgt.
  • Dies kann in vielen Ausführungsformen einen vorteilhaften Betrieb bereitstellen und kann z. B. verbesserte Hintergrundinformationen durch das Bildsignal bereitstellen, wodurch die Betrachtungssynthese basierend auf dem Bildsignal erleichtert und/oder verbessert wird. In einigen Ausführungsformen beträgt der erste Abstand nicht mehr als 25 % oder 10 % des maximalen inneren Abstands.
  • In einigen Ausführungsformen wird bestimmt, dass mindestens eine Betrachtungspose der kombinierten Bilder kleiner als ein erster Abstand von einer Grenze eines Bereichs ist, der die unterschiedlichen Betrachtungsposen der Vielzahl von Quellbildern umfasst, wobei der erste Abstand nicht mehr als 20 %, 10 % oder sogar 5 % eines maximalen Abstands zwischen zwei Betrachtungsposen der unterschiedlichen Betrachtungsposen beträgt.
  • In einigen Ausführungsformen wird bestimmt, dass mindestens eine Betrachtungspose der kombinierten Bilder mindestens ein Mindestabstand von einem Mittelpunkt der unterschiedlichen Betrachtungsposen ist, wobei der Mindestabstand mindestens 50 %, 75 % oder sogar 90 % eines Abstands von dem Mittelpunkt zu einer Grenze eines Bereichs beträgt, der die unterschiedlichen Betrachtungsposen der Vielzahl von Quellbildern entlang einer Linie durch den Mittelpunkt und die mindestens eine Betrachtungspose umfasst.
  • Gemäß einem optionalen Merkmal der Erfindung ist der kombinierte Bildgenerator für jedes Pixel eines ersten kombinierten Bildes der Vielzahl von kombinierten Bildern angeordnet zum: Bestimmen eines entsprechenden Pixels in jedem der Betrachtungsquellbilder, für das ein entsprechendes Pixel vorhanden ist, wobei ein entsprechendes Pixel eines ist, das eine gleiche Strahlrichtung wie das Pixel des ersten kombinierten Bildes darstellt; Auswählen eines Pixelwertes für das Pixel des ersten kombinierten Bildes als einen Pixelwert des entsprechenden Pixels in dem Betrachtungsquellbild, für welches das entsprechende Pixel einen Strahl mit einem größten Abstand von einem Mittelpunkt für die unterschiedlichen Betrachtungsposen darstellt, wobei der größte Abstand in einer ersten Richtung entlang einer ersten Achse senkrecht zu einer Strahlrichtung für das entsprechende Pixel ist.
  • Dadurch kann in vielen Ausführungsformen eine besonders effiziente und vorteilhafte Erzeugung kombinierter Bilder bereitgestellt werden. Dadurch kann insbesondere ein Ansatz mit geringer Komplexität zum Bestimmen eines kombinierten Bildes bereitgestellt werden, der eine vorteilhafte Darstellung von Hintergrunddaten bereitstellt, indem tendenziell eine Betrachtung bereitgestellt wird, die in Richtung einer Seitenbetrachtung geneigt ist.
  • Gemäß einem optionalen Merkmal der Erfindung umfasst das Neuabtasten jedes Quellbildes zu einer Bilddarstellung, die zumindest einen Teil einer Oberfläche einer die Betrachtungsposen umgebenden Betrachtungskugel darstellt, und das Bestimmen entsprechender Pixel als Pixel, die eine gleiche Position in der Bilddarstellung aufweisen.
  • Dadurch kann eine besonders effiziente und genaue Bestimmung entsprechender Pixel bereitgestellt werden.
  • Die Betrachtungskugeloberfläche kann beispielsweise durch eine äquirektanguläre oder würfelförmige Kartendarstellung dargestellt werden. Jedes Pixel der Betrachtungskugel kann eine Strahlrichtung aufweisen, und das Neuabtasten eines Quellbildes kann das Einstellen eines Pixelwertes der Betrachtungskugel auf den Pixelwert des Quellbildes, für den die Strahlrichtung gleich ist, einschließen.
  • Gemäß einem optionalen Merkmal der Erfindung ist der kombinierte Bildgenerator für jedes Pixel eines zweiten kombinierten Bildes angeordnet zum: Auswählen eines Pixelwertes für das Pixel in dem zweiten kombinierten Bild als einen Pixelwert des entsprechenden Pixels in dem Betrachtungsquellbild, für welches das entsprechende Pixel einen Strahl mit einem größten Abstand von dem Mittelpunkt in einer der ersten Richtung entgegengesetzten Richtung darstellt.
  • Dadurch kann in vielen Ausführungsformen eine besonders effiziente und vorteilhafte Erzeugung kombinierter Bilder bereitgestellt werden. Dadurch kann insbesondere ein Ansatz mit geringer Komplexität zum Bestimmen eines kombinierten Bildes bereitgestellt werden, der eine vorteilhafte Darstellung von Hintergrunddaten bereitstellt, indem tendenziell eine Betrachtung bereitgestellt wird, die in Richtung einer Seitenbetrachtung geneigt ist. Ferner kann das zweite kombinierte Bild das erste kombinierte Bild ergänzen, indem es eine Seitenansicht aus einer entgegengesetzten Richtung bereitstellt, wodurch es mit dem ersten kombinierten Bild kombiniert wird, um eine besonders vorteilhafte Darstellung der Szene und insbesondere von Hintergrundinformationen bereitzustellen.
  • Gemäß einem optionalen Merkmal der Erfindung ist der kombinierte Bildgenerator für jedes Pixel eines dritten kombinierten Bildes angeordnet zum: Auswählen eines Pixelwertes für das Pixel in dem dritten kombinierten Bild als einen Pixelwert des entsprechenden Pixels in dem Betrachtungsquellbild, für welches das entsprechende Pixel einen Strahl mit einem kleinsten Abstand von dem Mittelpunkt darstellt.
  • Dadurch kann in vielen Ausführungsformen eine besonders effiziente und vorteilhafte Erzeugung kombinierter Bilder bereitgestellt werden. Das dritte kombinierte Bild kann das erste (und das zweite) kombinierte Bild ergänzen, indem es eine frontalere Ansicht der Szene bereitstellt, was eine verbesserte Darstellung von Vordergrundobjekten in der Szene bereitstellen kann.
  • Gemäß einem optionalen Merkmal der Erfindung ist der kombinierte Bildgenerator für jedes Pixel in einem vierten kombinierten Bild angeordnet zum: Auswählen eines Pixelwertes für das Pixel in dem vierten kombinierten Bild als einen Pixelwert des entsprechenden Pixels in dem Betrachtungsquellbild, für welches das entsprechende Pixel einen Strahl mit einem größten Abstand von dem Mittelpunkt in einer zweiten Richtung entlang einer zweiten Achse senkrecht zu einer Strahlrichtung für das entsprechende Pixel darstellt, wobei die erste Achse und die zweite Achse unterschiedliche Richtungen aufweisen.
  • Dies kann in vielen Ausführungsformen eine besonders effiziente und vorteilhafte Erzeugung kombinierter Bilder bereitstellen und kann eine verbesserte Darstellung der Szene bereitstellen.
  • Gemäß einem optionalen Merkmal der Erfindung ist der kombinierte Bildgenerator angeordnet, um Ursprungsdaten für das erste kombinierte Bild zu erzeugen, wobei die Ursprungsdaten angeben, welches der Quellbilder ein Ursprung für jedes Pixel des ersten kombinierten Bildes ist; und der Bildsignalgenerator ist angeordnet, um die Ursprungsdaten in das Bildsignal einzuschließen.
  • Dies kann in vielen Ausführungsformen einen besonders vorteilhaften Betrieb bereitstellen.
  • Gemäß einem optionalen Merkmal der Erfindung ist der Bildsignalgenerator angeordnet, um Quellbetrachtungsposendaten in das Bildsignal aufzunehmen, wobei die Quellbetrachtungsposendaten die unterschiedlichen Betrachtungsposen für die Quellbilder angeben.
  • Dies kann in vielen Ausführungsformen einen besonders vorteilhaften Betrieb bereitstellen.
  • Gemäß einem Aspekt der Erfindung wird eine Einrichtung zum Empfangen eines Bildsignals bereitgestellt, wobei die Einrichtung umfasst: einen Empfänger zum Empfangen eines Bildsignals, wobei das Bildsignal umfasst: eine Vielzahl von kombinierten Bildern, wobei jedes kombinierte Bild Bilddaten darstellt, die aus einem Satz von mindestens zwei Quellbildern einer Vielzahl von Quellbildern abgeleitet sind, die eine Szene aus unterschiedlichen Betrachtungsposen darstellen, wobei jedes Pixel eines kombinierten Bildes die Szene für eine Strahlpose darstellt und die Strahlposen für jedes kombinierte Bild mindestens zwei unterschiedliche Positionen einschließen, wobei eine Strahlpose für ein Pixel eine Position für einen Strahl in einer Betrachtungsrichtung für das Pixel und von einer Betrachtungsposition für das Pixel darstellt; Bilddaten für einen Satz von Segmenten der Vielzahl von Quellbildern, wobei ein Segment für ein erstes Quellbild mindestens ein Pixel des ersten Quellbildes umfasst, für das ein Vorhersagequalitätsmaß für eine Vorhersage des Segments aus der Vielzahl von kombinierten Bildern unter einem Schwellenwert liegt; und einen Prozessor zum Verarbeiten des Bildsignals.
  • Gemäß einem Aspekt der Erfindung wird ein Verfahren zum Erzeugen eines Bildsignals bereitgestellt, wobei das Verfahren umfasst: Empfangen einer Vielzahl von Quellbildern, die eine Szene aus unterschiedlichen Betrachtungsposen darstellen; Erzeugen einer Vielzahl von kombinierten Bildern aus den Quellbildern, wobei jedes kombinierte Bild aus einem Satz von mindestens zwei Quellbildern der Vielzahl von Quellbildern abgeleitet ist, wobei jedes Pixel eines kombinierten Bildes die Szene für eine Strahlpose darstellt und die Strahlposen für jedes kombinierte Bild mindestens zwei unterschiedliche Positionen einschließen, wobei eine Strahlpose für ein Pixel eine Pose für einen Strahl in einer Betrachtungsrichtung für das Pixel und von einer Betrachtungsposition für das Pixel darstellt; Bestimmen von Vorhersagequalitätsmaßen für Elemente der Vielzahl von Quellbildern, wobei ein Vorhersagequalitätsmaß für ein Element eines ersten Quellbildes eine Differenz zwischen Pixelwerten in dem ersten Quellbild für Pixel in dem Element und vorhergesagten Pixelwerten für Pixel in dem Element angibt, wobei die vorhergesagten Pixelwerte Pixelwerte sind, die aus der Vorhersage von Pixeln in dem Element aus der Vielzahl von kombinierten Bildern resultieren; Bestimmen von Segmenten der Quellbilder, die Elemente umfassen, für die das Vorhersagequalitätsmaß eine Differenz über einem Schwellenwert angibt, Erzeugen eines Bildsignals, das Bilddaten, die kombinierten Bilder darstellen, und Bilddaten, die Segmente der Quellbilder darstellen, umfasst.
  • Gemäß einem Aspekt der Erfindung wird ein Verfahren zum Verarbeiten eines Bildsignals bereitgestellt, wobei das Verfahren umfasst: Empfangen eines Bildsignals, wobei das Bildsignal umfasst: eine Vielzahl kombinierter Bilder, wobei jedes kombinierte Bild Bilddaten darstellt, die aus einem Satz von mindestens zwei Quellbildern einer Vielzahl von Quellbildern abgeleitet sind, die eine Szene aus unterschiedlichen Betrachtungsposen darstellen, wobei jedes Pixel eines kombinierten Bildes die Szene für eine Strahlpose darstellt und die Strahlposen für jedes kombinierte Bild mindestens zwei unterschiedliche Positionen einschließen, wobei eine Strahlpose für ein Pixel eine Position für einen Strahl in einer Betrachtungsrichtung für das Pixel und von einer Betrachtungsposition für das Pixel darstellt; Bilddaten für einen Satz von Segmenten der Vielzahl von Quellbildern, wobei ein Segment für ein erstes Quellbild mindestens ein Pixel des ersten Quellbildes umfasst, für das ein Vorhersagequalitätsmaß für eine Vorhersage des Segments aus der Vielzahl von kombinierten Bildern unter einem Schwellenwert liegt; und Verarbeiten des Bildsignals.
  • Gemäß einem Aspekt der Erfindung wird ein Bildsignal bereitgestellt, das umfasst: eine Vielzahl von kombinierten Bildern, wobei jedes kombinierte Bild Bilddaten darstellt, die aus einem Satz von mindestens zwei Quellbildern einer Vielzahl von Quellbildern abgeleitet sind, die eine Szene aus unterschiedlichen Betrachtungsposen darstellen, wobei jedes Pixel eines kombinierten Bildes die Szene für eine Strahlpose darstellt und die Strahlposen für jedes kombinierte Bild mindestens zwei unterschiedliche Positionen einschließen, wobei eine Strahlpose für ein Pixel eine Position für einen Strahl in einer Betrachtungsrichtung für das Pixel und von einer Betrachtungsposition für das Pixel darstellt, Bilddaten für einen Satz von Segmenten der Vielzahl von Quellbildern, wobei ein Segment für ein erstes Quellbild mindestens ein Pixel des ersten Quellbildes umfasst, für das ein Vorhersagequalitätsmaß für eine Vorhersage des Segments aus der Vielzahl von kombinierten Bildern unter einem Schwellenwert liegt.
  • Diese und andere Gesichtspunkte, Merkmale und Vorteile der Erfindung werden aus der/den nachstehend beschriebenen Ausführungsform(en) ersichtlich und unter Bezugnahme auf diese erläutert.
  • Figurenliste
  • Ausführungsformen der Erfindung werden lediglich beispielhaft unter Bezugnahme auf die Zeichnungen beschrieben, in denen
    • 1 ein Beispiel einer Anordnung zum Bereitstellen einer Virtual-Reality-Erfahrung veranschaulicht;
    • 2 ein Beispiel einer Erfassungsanordnung für eine Szene veranschaulicht;
    • 3 ein Beispiel einer Erfassungsanordnung für eine Szene veranschaulicht;
    • 4 ein Beispiel von Elementen einer Einrichtung gemäß einigen Ausführungsformen der Erfindung veranschaulicht;
    • 5 ein Beispiel von Elementen einer Einrichtung gemäß einigen Ausführungsformen der Erfindung veranschaulicht;
    • 6 ein Beispiel einer Pixelauswahl gemäß einigen Ausführungsformen der Erfindung veranschaulicht; und
    • 7 ein Beispiel einer Pixelauswahl gemäß einigen Ausführungsformen der Erfindung veranschaulicht.
    • 8 ein Beispiel von Elementen einer Strahlposenanordnung für ein kombiniertes Bild, das gemäß einigen Ausführungsformen der Erfindung erzeugt wird, veranschaulicht;
    • 9 ein Beispiel von Elementen einer Strahlposenanordnung für ein kombiniertes Bild, das gemäß einigen Ausführungsformen der Erfindung erzeugt wird, veranschaulicht;
    • 10 ein Beispiel von Elementen einer Strahlposenanordnung für ein kombiniertes Bild, das gemäß einigen Ausführungsformen der Erfindung erzeugt wird, veranschaulicht;
    • 11 ein Beispiel von Elementen einer Strahlposenanordnung für ein kombiniertes Bild, das gemäß einigen Ausführungsformen der Erfindung erzeugt wird, veranschaulicht;
    • 12 ein Beispiel von Elementen einer Strahlposenanordnung für ein kombiniertes Bild, das gemäß einigen Ausführungsformen der Erfindung erzeugt wird, veranschaulicht; und
    • 13 ein Beispiel von Elementen einer Strahlposenanordnung für ein kombiniertes Bild, das gemäß einigen Ausführungsformen der Erfindung erzeugt wird, veranschaulicht.
  • DETAILLIERTE BESCHREIBUNG EINIGER AUSFÜHRUNGSFORMEN DER ERFINDUNG
  • Virtuelle Erfahrungen, die einem Benutzer ermöglichen, sich in einer virtuellen Welt zu bewegen, werden zunehmend populärer und es werden Dienste entwickelt, die einer solchen Nachfrage genügen. Die Bereitstellung effizienter Virtual-Reality-Dienste ist jedoch sehr anspruchsvoll, insbesondere wenn die Erfahrung nicht auf einer vollständig virtuell erzeugten Kunstwelt, sondern auf einer Erfassung einer realen Umgebung basieren soll.
  • In vielen Virtual-Reality-Anwendungen wird eine Betrachterposeneingabe bestimmt, welche die Pose eines virtuellen Betrachters in der Szene widerspiegelt. Die Einrichtung/das System/die Anwendung für Virtual-Realityerzeugt dann ein oder mehrere Bilder in Übereinstimmung mit den den Ansichten und Betrachtungsfenstern der Szene für einen Betrachter in Übereinstimmung mit der Betrachterpose.
  • Typischerweise erzeugt die Virtual-Reality-Anwendung eine dreidimensionale Ausgabe in Form separater Betrachtungsbilder für das linke und das rechte Auge. Diese können dann dem Benutzer durch geeignete Mittel wie typischerweise individuelle Links-und Rechtsaugenanzeigen eines VR-Headsets präsentiert werden. In anderen Ausführungsformen kann das Bild z. B. auf einer autostereoskopischen Anzeige dargestellt werden (in welchem Fall eine größere Anzahl von Betrachtungsbildern für die Betrachterpose erzeugt werden kann), oder tatsächlich kann in einigen Ausführungsformen nur ein einziges zweidimensionales Bild erzeugt werden (z. B. unter Verwendung einer herkömmlichen zweidimensionalen Anzeige).
  • Die Eingabe der Betrachterpose kann auf unterschiedliche Weise in unterschiedlichen Anwendungen bestimmt werden. In vielen Ausführungsformen kann die physische Bewegung eines Benutzers direkt verfolgt werden. Zum Beispiel kann eine Kamera, die einen Benutzerbereich überwacht, den Kopf (oder sogar die Augen) des Benutzers detektieren und verfolgen. In vielen Ausführungsformen kann der Benutzer ein VR-Headset tragen, das durch externe und/oder interne Mittel verfolgt werden kann. Beispielsweise kann das Headset Beschleunigungsmesser und Gyroskope umfassen, die Informationen über die Bewegung und Drehung des Headsets und somit des Kopfes bereitstellen. In einigen Beispielen kann das VR-Headset Signale übertragen oder (z. B. visuelle) Kennungen umfassen, die es einem externen Sensor ermöglichen, die Bewegung des VR-Headsets zu bestimmen.
  • In einigen Systemen kann die Betrachterpose durch manuelle Mittel bereitgestellt werden, z. B. indem der Benutzer manuell einen Joystick oder eine ähnliche manuelle Eingabe steuert. Zum Beispiel kann der Benutzer den virtuellen Betrachter manuell in der Szene bewegen, indem er einen ersten analogen Joystick mit einer Hand steuert und die Betrachtungsrichtung des virtuellen Betrachters manuell steuert, indem er einen zweiten analogen Joystick mit der anderen Hand bewegt.
  • In einigen Anwendungen kann eine Kombination von manuellen und automatisierten Ansätzen verwendet werden, um die Eingabebetrachterpose zu erzeugen. Zum Beispiel kann ein Headset die Ausrichtung des Kopfes verfolgen und die Bewegung/Position des Betrachters in der Szene kann durch den Benutzer unter Verwendung eines Joysticks gesteuert werden.
  • Die Erzeugung von Bildern basiert auf einer geeigneten Darstellung der virtuellen Welt/Umgebung/Szene. In einigen Anwendungen kann ein vollständiges dreidimensionales Modell für die Szene bereitgestellt werden und die Ansichten der Szene aus einer spezifischen Betrachterpose können durch Auswerten dieses Modells bestimmt werden.
  • In vielen praktischen Systemen kann die Szene durch eine Bilddaten umfassende Bilddarstellung dargestellt werden. Die Bilddaten können in der Regel Bilder umfassen, die einer oder mehreren Erfassungs- oder Ankerposen zugeordnet sind, und insbesondere können Bilder für einen oder mehrere Betrachtungsfenster enthalten sein, wobei jedes Betrachtungsfenster einer spezifischen Pose entspricht. Eine Bilddarstellung kann verwendet werden, die ein oder mehrere Bilder umfasst, wobei jedes Bild die Ansicht eines gegebenen Betrachtungsfensters für eine gegebene Betrachtungspose darstellt. Solche Betrachtungsposen oder -positionen, für die Bilddaten bereitgestellt werden, werden oft als Ankerposen oder -positionen oder Erfassungsposen oder -positionen bezeichnet (da die Bilddaten in der Regel Bildern entsprechen können, die von Kameras erfasst werden oder würden, die in der Szene positioniert sind, wobei die Position und Ausrichtung der Erfassungspose entsprechen).
  • Viele typische VR-Anwendungen können auf der Basis einer solchen Bilddarstellung ablaufen, um Betrachtungsbilder bereitzustellen, die Betrachtungsfenstern für die Szene für die aktuelle Betrachterpose entsprechen, wobei die Bilder dynamisch aktualisiert werden, um Änderungen in der Betrachterpose widerzuspiegeln, und wobei die Bilder basierend auf den Bilddaten erzeugt werden, die (möglicherweise) virtuelle Szene/Umgebung/Welt darstellen. Die Anwendung kann dies tun, indem Betrachtungssynthese und Betrachtungsverschiebungsalgorithmen durchgeführt werden, wie dem Fachmann bekannt sein wird.
  • In der Fachwelt werden die Begriffe Platzierung und Pose als gemeinsamer Begriff für Position und/oder Richtung/Ausrichtung verwendet. Die Kombination der Position und Richtung/Ausrichtung von z. B. einem Objekt, einer Kamera, einem Kopf oder einer Betrachtung kann als Pose oder Platzierung bezeichnet werden. Somit kann eine Platzierungs- oder Posenangabe sechs Werte/Komponenten/Freiheitsgrade umfassen, wobei jeder Wert/jede Komponente typischerweise eine individuelle Eigenschaft der Position/des Standorts oder der Ausrichtung/Richtung des entsprechenden Objekts beschreibt. Natürlich kann in vielen Situationen eine Platzierung oder Pose mit weniger Komponenten in Betracht gezogen oder dargestellt werden, beispielsweise wenn eine oder mehrere Komponenten als fest oder irrelevant betrachtet werden (z. B. wenn alle Objekte als auf gleicher Höhe liegend betrachtet werden und eine horizontale Ausrichtung aufweisen, können vier Komponenten eine vollständige Darstellung der Pose eines Objekts bereitstellen). Im Folgenden wird unter Pose eine Position und/oder Ausrichtung verstanden, die durch ein bis sechs Werte (entsprechend den maximal möglichen Freiheitsgraden) dargestellt werden kann.
  • Viele VR-Anwendungen basieren auf einer Pose mit den maximalen Freiheitsgraden, d. h. jeweils drei Freiheitsgraden der Position und der Ausrichtung, was insgesamt sechs Freiheitsgrade ergibt. Eine Pose kann somit durch einen Satz oder Vektor von sechs Werten dargestellt werden, die sechs Freiheitsgrade darstellen, und somit kann ein Posenvektor eine dreidimensionale Position und/oder eine dreidimensionale Richtungsanzeige bereitstellen. Man wird jedoch zu schätzen wissen, dass in anderen Ausführungsformen die Pose durch weniger Werte dargestellt werden kann.
  • Eine Pose kann eine Ausrichtung und/oder eine Position sein. Ein Posenwert kann mindestens eines von einem Ausrichtungswert und einem Positionswert angeben.
  • Ein System oder eine Entität, das/die auf der Bereitstellung des maximalen Freiheitsgrades für den Betrachter basiert, wird in der Regel als 6 Freiheitsgrade (6DoF) aufweisend bezeichnet. Viele Systeme und Entitäten stellen nur eine Ausrichtung oder Position bereit, und diese weisen bekanntermaßen in der Regel 3 Freiheitsgrade (3DoF) auf.
  • In einigen Systemen kann die VR-Anwendung einem Betrachter lokal bereitgestellt werden, z. B. durch eine eigenständige Vorrichtung, die keine entfernten VR-Daten oder Verarbeitung verwendet oder und auch keinen Zugriff auf diese hat. Zum Beispiel kann eine Vorrichtung wie eine Spielkonsole einen Speicher zum Speichern der Szenendaten, eine Eingabe zum Empfangen/Erzeugen der Betrachterpose und einen Prozessor zum Erzeugen der entsprechenden Bilder aus den Szenendaten umfassen.
  • In anderen Systemen kann die VR-Anwendung entfernt vom Betrachter implementiert und durchgeführt werden. Zum Beispiel kann eine Vorrichtung lokal für den Benutzer Bewegungs-/Posendaten detektieren/empfangen, die an eine entfernte Vorrichtung übertragen werden, die Daten verarbeitet, um die Betrachterpose zu erzeugen. Die entfernte Vorrichtung kann dann geeignete Betrachtungsbilder für die Betrachterpose basierend auf Szenendaten erzeugen, welche die Szene beschreiben. Die Betrachtungsbilder werden dann an die für den Betrachter lokale Vorrichtung übertragen und dort dargestellt. Zum Beispiel kann die entfernte Vorrichtung direkt einen Videostrom (typischerweise einen Stereo-/3D-Videostrom) erzeugen, der direkt von der lokalen Vorrichtung präsentiert wird. Somit kann in einem solchen Beispiel die lokale Vorrichtung keine VR-Verarbeitung durchführen, außer zum Übertragen von Bewegungsdaten und Präsentieren empfangener Videodaten.
  • In vielen Systemen kann die Funktionalität über eine lokale Vorrichtung und eine entfernte Vorrichtung verteilt sein. Zum Beispiel kann die lokale Vorrichtung empfangene Eingabe-und Sensordaten verarbeiten, um Betrachterposen zu erzeugen, die kontinuierlich an die entfernte VR-Vorrichtung übertragen werden. Die entfernte VR-Vorrichtung kann dann die entsprechenden Betrachtungsbilder erzeugen und diese zur Präsentation an die lokale Vorrichtung übertragen. In anderen Systemen erzeugt die entfernte VR-Vorrichtung möglicherweise nicht direkt die Betrachtungsbilder, sondern kann relevante Szenendaten auswählen und diese an die lokale Vorrichtung übertragen, die dann die Betrachtungsbilder erzeugen kann, die präsentiert werden. Zum Beispiel kann die entfernte VR-Vorrichtung den nächsten Erfassungspunkt identifizieren und die entsprechenden Szenendaten (z. B. Kugelbild- und Tiefendaten aus dem Erfassungspunkt) extrahieren und diese an die lokale Vorrichtung übertragen. Die lokale Vorrichtung kann dann die empfangenen Szenendaten verarbeiten, um die Bilder für die spezifische aktuelle Betrachtungspose zu erzeugen. Die Betrachtungspose entspricht in der Regel der Kopfpose, und Referenzen auf die Betrachtungspose können in der Regel äquivalent als den Referenzen auf die Kopfpose entsprechend angesehen werden.
  • In vielen Anwendungen, insbesondere für Rundfunkdienste, kann eine Quelle Szenendaten in Form einer Bild- (einschließlich Video-) Darstellung der Szene übertragen, die unabhängig von der Betrachterpose ist. Zum Beispiel kann eine Bilddarstellung für eine einzelne Betrachtungskugel für eine einzelne Erfassungsposition an eine Vielzahl von Clients übertragen werden. Die einzelnen Clients können dann lokal Betrachtungsbilder synthetisieren, die der aktuellen Betrachterpose entsprechen.
  • Besonders interessant ist eine Anwendung, bei der ein begrenzter Bewegungsbetrag derart unterstützt wird, dass die dargestellten Betrachtungen aktualisiert werden, um kleinen Bewegungen und Drehungen zu folgen, die einem im Wesentlichen statischen Betrachter entsprechen, der nur kleine Kopfbewegungen und Drehungen des Kopfes ausführt. Beispielsweise kann ein sitzender Betrachter seinen Kopf drehen und leicht bewegen, wobei die dargestellten Ansichten/Bilder derart angepasst werden, dass sie diesen Posenänderungen folgen. Ein solcher Ansatz kann eine hohe und immersive z. B. Videoerfahrung bereitstellen. Zum Beispiel kann ein Betrachter, der ein Sportereignis betrachtet, fühlen, dass er sich an einer bestimmten Stelle in der Arena aufhält.
  • Solche Anwendungen mit eingeschränkter Freiheit haben den Vorteil, dass eine verbesserte Erfahrung bereitgestellt wird, während eine genaue Darstellung einer Szene aus vielen unterschiedlichen Positionen nicht erforderlich ist, wodurch die Erfassungsanforderungen wesentlich reduziert werden. In ähnlicher Weise kann die Datenmenge, die einem Renderer bereitgestellt werden muss, erheblich reduziert werden. Tatsächlich müssen in vielen Szenarien nur Bild- und typischerweise Tiefendaten für einen einzigen Betrachtungspunkt bereitgestellt werden, wobei der lokale Renderer daraus die gewünschten Ansichten erzeugen kann.
  • Der Ansatz kann insbesondere sehr gut für Anwendungen geeignet sein, bei denen die Daten von einer Quelle zu einem Ziel über einen bandbegrenzten Kommunikationskanal kommuniziert werden müssen, wie beispielsweise für eine Broadcast- oder Client-Server-Anwendung.
  • 1 veranschaulicht ein solches Beispiel eines VR-Systems, in dem sich eine entfernte VR-Client-Vorrichtung 101 beispielsweise über ein Netzwerk 105 wie das Internet mit einem VR-Server 103 verbindet. Der Server 103 kann so angeordnet sein, dass er gleichzeitig eine potenziell große Anzahl von Client-Vorrichtungen 101 unterstützt.
  • Der VR-Server 103 kann zum Beispiel eine Rundsendeerfahrung unterstützen, indem er ein Bildsignal überträgt, das eine Bilddarstellung in Form von Bilddaten umfasst, die von den Client-Vorrichtungen verwendet werden können, um lokal Betrachtungsbilder zu synthetisieren, die den geeigneten Posen entsprechen.
  • In vielen Anwendungen, wie der von 1, kann es daher wünschenswert sein, eine Szene aufzunehmen und eine effiziente Bilddarstellung zu erzeugen, die effizient in ein Bildsignal aufgenommen werden kann. Das Bildsignal kann dann an unterschiedliche Vorrichtungen übertragen werden, die lokal Ansichten für andere Betrachtungsposen als die Erfassungsposen synthetisieren können. Dazu kann die Bilddarstellung typischerweise Tiefeninformationen einschließen und beispielsweise können Bilder mit zugehöriger Tiefe bereitgestellt werden. Zum Beispiel können Tiefenkarten unter Verwendung von Stereoerfassung in Kombination mit Disparitätsschätzung oder unter Verwendung von Entfernungssensoren erhalten werden, und diese Tiefenkarten können mit den Lichtintensitätsbildern versehen werden.
  • Ein besonderes Problem für solche Ansätze besteht jedoch darin, dass das Ändern der Betrachtungspose die Okklusionseigenschaften ändern kann, was dazu führt, dass Hintergrundsegmente, die in einem gegebenen erfassten Bild nicht sichtbar sind, für die andere Betrachtungspose sichtbar werden.
  • Um dies zu beheben, werden häufig relativ viele Kameras zur Erfassung einer Szene verwendet. 2 zeigt ein Beispiel einer Erfassung durch eine kreisförmige Kameraausrüstung mit acht Ansichten. Im Beispiel sind die Kameras nach außen gerichtet. Wie zu sehen ist, können unterschiedliche Kameras und somit unterschiedliche Erfassungs-/Quellbilder Sichtbarkeit von unterschiedlichen Teilen der Szene aufweisen. Beispielsweise ist der Hintergrundbereich 1 nur von der Kamera 2 aus sichtbar. Wie jedoch auch zu erkennen ist, ist ein großer Teil der Szene von mehreren Kameras sichtbar und es entsteht somit eine signifikante Menge redundanter Informationen.
  • 3 zeigt ein Beispiel eines linearen Satzes von Kameras. Wieder liefern die Kameras Informationen über unterschiedliche Teile der Szene, z. B. ist c 1 der einzige Kameraerfassungsbereich 2, c3 ist der einzige Kameraerfassungsbereich 4 und c4 ist der einzige Kameraerfassungsbereich 3. Gleichzeitig werden einige Teile der Szene von mehr als einer der Kameras erfasst. Beispielsweise erfassen alle Kameras die Vorderseite der Vordergrundobjekte fg1 und fg2, wobei einige Kameras eine bessere Erfassung ermöglichen als andere. 3 zeigt ein Beispiel A für vier Kameras und ein Beispiel B für zwei Kameras. Wie zu erkennen ist, stellt der Aufbau mit vier Kameras eine bessere Erfassung bereit, einschließlich der Erfassung eines Teils der Szene (Bereich 4 des Hintergrunds bg), erzeugt aber natürlich auch eine größere Datenmenge, einschließlich redundanterer Daten.
  • Ein Nachteil einer Erfassung mit vielen Ansichten gegenüber einer einzigen zentralen Ansicht ist offensichtlich die erhöhte Menge an Bilddaten. Ein weiterer Nachteil ist die große Anzahl der erzeugten Pixel, d. h. die Pixelrate, die verarbeitet werden muss und die der Decoder erzeugen muss. Dies erfordert auch eine erhöhte Komplexität und Ressourcennutzung für die Betrachtungssynthese während der Wiedergabe.
  • Im Folgenden wird ein spezifischer Ansatz beschrieben, der eine effizientere und weniger redundante Bilddarstellung der erfassten Ansichten verwendet. Dadurch soll eine gewisse räumliche und zeitliche Kohärenz von Bilddaten bewahrt werden, wodurch Videocodierer effizienter werden können. Dadurch werden Bitrate, Pixelrate und die Komplexität der Betrachtungssynthese am Wiedergabeort reduziert.
  • Diese Darstellung umfasst eine Vielzahl von kombinierten Bildern, von denen jedes aus zwei oder mehrere der Quellbilder erzeugt wird (die insbesondere erfasste 3D-Bilder sein können, die z. B. als Bild plus Tiefenkarte dargestellt werden), wobei in der Regel nur ein Teil jedes der Quellbilder berücksichtigt wird. Die kombinierten Bilder können eine Referenz für die Betrachtungssynthese bereitstellen und wesentliche Szeneninformationen bereitstellen. Die kombinierten Bilder können so erzeugt werden, dass sie zu mehr externen Ansichten der Szene und insbesondere zu den Grenzen des Erfassungsbereichs hin verzerrt sind. In einigen Ausführungsformen können auch ein oder mehrere zentrale kombinierte Bilder bereitgestellt werden.
  • In vielen Ausführungsformen stellt jedes der kombinierten Bilder Ansichten von unterschiedlichen Betrachtungspositionen dar, d. h. jedes Bild kann mindestens Pixel umfassen, die unterschiedlichen Betrachtungs-/Erfassungs-/Ankerposen entsprechen. Insbesondere kann jedes Pixel eines kombinierten Bildes eine Strahlpose darstellen, die einem Ursprung/einer Position und einer Richtung/Ausrichtung für einen Strahl von diesem Ursprung/dieser Position entspricht, der in diese Richtung/Ausrichtung gerichtet ist und auf dem Szenenpunkt/Objekt endet, der durch den Pixelwert für dieses Pixel dargestellt wird. Mindestens zwei Pixel eines kombinierten Bildes können unterschiedliche Strahlursprünge/- positionen aufweisen. Zum Beispiel können in einigen Ausführungsformen die Pixel eines kombinierten Bildes in N Gruppen unterteilt werden, wobei alle Pixel in einer Gruppe den gleichen Strahlursprung/die gleiche Strahlposition aufweisen, wobei dies jedoch für die einzelnen Gruppen unterschiedlich ist. N kann zwei oder größer sein. In einigen Ausführungsformen kann N gleich der maximalen Anzahl von horizontalen Pixeln in einer Zeile (und/oder der Anzahl von Spalten in dem kombinierten Bild) sein, und tatsächlich kann in einigen Ausführungsformen N gleich der Anzahl von Pixeln sein, d. h., alle Pixel können einen eindeutigen Strahlursprung/eine eindeutige Strahlpose aufweisen.
  • Eine Strahlpose für ein Pixel kann somit einen Ursprung/eine Position und/oder eine Ausrichtung/Richtung für einen Strahl zwischen dem Ursprung/der Position und dem durch das Pixel dargestellten Szenenpunkt darstellen. Der Ursprung/die Position kann insbesondere eine Betrachtungsposition für das Pixel sein, und die Ausrichtung/Richtung kann die Betrachtungsrichtung für das Pixel sein. Er kann effektiv den Lichtstrahl darstellen, der an der Strahlposition aus der Strahlrichtung für das Pixel erfasst werden würde, und reflektiert somit den Lichtstrahl, der durch den Pixelwert dargestellt wird.
  • Jedes Pixel kann somit die Szene darstellen, gesehen von einer Betrachtungsposition in einer Betrachtungsrichtung. Die Betrachtungsposition und die Betrachtungsrichtung definieren demnach einen Strahl. Jedem Pixel kann ein Betrachtungsstrahl von der Betrachtungsposition für das Pixel und in der Betrachtungsrichtung für das Pixel zugeordnet sein. Jedes Pixel stellt die Szene für eine (Betrachtungs-) Strahlpose dar, wobei die Pose eines Strahls von einem Betrachtungspunkt/einer Position für das Pixel und in einer Betrachtungsrichtung ist. Das Pixel kann insbesondere den Szenenpunkt (Punkt in der Szene) darstellen, an dem der Sichtstrahl ein Szenenobjekt (einschließlich des Hintergrunds) schneidet. Ein Pixel kann Lichtstrahlen von einem Szenenpunkt zu der Betrachtungsposition und in der Betrachtungsrichtung darstellen. Der Betrachtungsstrahl kann ein Strahl von der Betrachtungsposition in der Richtung sein, die den Szenenpunkt schneidet.
  • Zusätzlich werden die kombinierten Bilder durch Segmente oder Fragmente der erfassten Ansichten ergänzt, die aus den kombinierten Bildern als nicht ausreichend gut vorhergesagt identifiziert wurden. Somit wird eine Anzahl, und in der Regel eine relativ hohe Anzahl, von in der Regel kleinen Segmenten definiert und eingeschlossen, um spezifisch einzelne Teile der erfassten Bilder darzustellen, die Informationen über Elemente der Szene bereitstellen können, die durch die kombinierten Bilder nicht ausreichend gut dargestellt werden.
  • Ein Vorteil dieser Darstellung besteht darin, dass für unterschiedliche Teile der zu übertragenden Bilddaten unterschiedliche Codierungen bereitgestellt werden können. Beispielsweise kann eine effiziente und komplexe Codierung und Komprimierung auf die kombinierten Bilder angewendet werden, da dies tendenziell den größten Teil des Bildsignals ausmacht, während eine weniger effiziente Codierung oft auf die Segmente angewendet werden kann. Ferner können die kombinierten Bilder so erzeugt werden, dass sie hervorragend für eine effiziente Codierung geeignet sind, indem sie z. B. so erzeugt werden, dass sie herkömmlichen Bildern ähnlich sind, wodurch effiziente Bildcodierungsansätze verwendet werden können. Im Gegensatz dazu können die Eigenschaften der Segmente abhängig von den spezifischen Eigenschaften der Bilder viel mehr variieren und somit schwieriger zu codieren sein. Dies ist jedoch kein Problem, da die Segmente tendenziell viel weniger Bilddaten bereitstellen.
  • 4 veranschaulicht ein Beispiel einer Einrichtung zum Erzeugen eines Bildsignals, das eine Darstellung einer Vielzahl von Quellbildern der Szene aus unterschiedlichen Quellbetrachtungsposen (Ankerposen), wie vorstehend beschrieben, einschließt. Die Einrichtung wird auch als Bildsignalgeber 400 bezeichnet. Der Bildsignalgeber 400 kann beispielsweise im VR-Server 103 von 1 enthalten sein.
  • 5 veranschaulicht ein Beispiel einer Einrichtung zum Rendern von Betrachtungsbildern basierend auf einem empfangenen Bildsignal, das eine Darstellung einer Vielzahl von Bildern der Szene einschließt. Die Einrichtung kann insbesondere das von der Einrichtung von 4 erzeugte Bilddatensignal empfangen und damit fortfahren, dieses zu verarbeiten, um Bilder für spezifische Betrachtungsposen zu rendern. Die Einrichtung von 5 wird auch als Bildsignalempfänger 500 bezeichnet. Der Bildsignalempfänger 500 kann zum Beispiel in der Client-Vorrichtung 101 von 1 enthalten sein.
  • Der Bildsignalsender 400 umfasst einen Bildquellempfänger 401, der angeordnet ist, um mehrere Quellbilder der Szene zu empfangen. Die Quellbilder können Ansichten der Szene aus unterschiedlichen Betrachtungsposen darstellen. Die Quellbilder können in der Regel erfasste Bilder sein, die z. B. von Kameras einer Kameraausrüstung erfasst werden. Die Quellbilder können z. B. Bilder aus einer Reihe äquidistanter Erfassungkameras oder aus einem Kamerakranz umfassen.
  • In vielen Ausführungsformen können die Quellbilder 3D-Bilder sein, die 2D-Bilder mit zugehörigen Tiefeninformationen umfassen. Die 2D-Bilder können insbesondere Betrachtungsbilder für Betrachtungsfenster der Szene aus der entsprechenden Erfassungposition sein, und das 2D-Bild kann von einem Tiefenbild oder einer Tiefenkarte begleitet werden, die Tiefenwerte für jedes der Pixel des 2D-Bildes umfasst. Das 2D-Bild kann eine Texturkarte sein. Das 2D-Bild kann ein Lichtintensitätsbild sein.
  • Bei den Tiefenwerten kann es sich beispielsweise um Disparitätswerte oder Abstandswerte handeln, die z. B. durch eine z-Koordinate angegeben sind. In einigen Ausführungsformen kann ein Quellbild ein 3D-Bild in Form einer Texturkarte mit einem zugehörigen 3D-Gitter sein. In einigen Ausführungsformen können solche Texturkarten und Maschendarstellungen vom Bildquellempfänger vor der weiteren Verarbeitung durch den Bildsignalsender 400 in Darstellungen von Bild plus Tiefe umgewandelt werden.
  • Dementsprechend empfängt der Bildquellempfänger 401 eine Vielzahl von Quellbildern, die die Szene aus unterschiedlichen Quellbetrachtungsposen charakterisieren und darstellen. Ein solcher Satz von Quellbildern ermöglicht die Erzeugung von Betrachtungsbildern für andere Posen unter Verwendung von Algorithmen wie Betrachtungsverschiebung, wie dem Fachmann bekannt ist. Dementsprechend ist der Bildsignalsender 400 angeordnet, um ein Bildsignal zu erzeugen, das Bilddaten für die Quellbilder umfasst, und diese Daten an eine entfernte Vorrichtung zum lokalen Rendern zu übertragen. Die direkte Übertragung aller Quellbilder erfordert jedoch eine unzulässig hohe Datenrate und weist eine große Menge an redundanten Informationen auf. Der Bildsignalsender 400 ist angeordnet, um die Datenrate durch Verwendung einer Bilddarstellung wie zuvor beschrieben zu reduzieren.
  • Insbesondere ist der Eingabequellempfänger 401 mit einem kombinierten Bildgenerator 403 gekoppelt, der angeordnet ist, um eine Vielzahl von kombinierten Bildern zu erzeugen. Die kombinierten Bilder umfassen Informationen, die von einer Vielzahl der Quellbilder abgeleitet sind. Der genaue Ansatz zum Ableiten der kombinierten Bilder kann sich zwischen unterschiedlichen Ausführungsformen unterscheiden, und spezifische Beispiele werden später ausführlicher beschrieben. In einigen Ausführungsformen kann ein kombiniertes Bild durch Auswahl von Pixeln aus unterschiedlichen Quellbildern erzeugt werden. In anderen Ausführungsformen können die kombinierten Bilder alternativ oder zusätzlich eines oder mehrere der kombinierten Bilder durch Betrachtungssynthese aus den Quellbildern erzeugen.
  • Während jedoch jedes kombinierte Bild einen Beitrag von mindestens zwei und oft mehreren der Quellbilder einschließt, wird typischerweise für jedes kombinierte Bild nur ein Teil der einzelnen Quellbilder berücksichtigt. Somit gibt es für jedes Quellbild, das verwendet wird, um ein gegebenes kombiniertes Bild zu erzeugen, einige Pixel, die ausgeschlossen/verworfen werden. Somit hängen die für das bestimmte kombinierte Bild erzeugten Pixelwerte nicht von den Pixelwerten dieser Pixel ab.
  • Die kombinierten Bilder können so erzeugt werden, dass jedes Bild nicht nur eine Betrachtungs-/Erfassungs-/Ankerposition darstellt, sondern zwei oder mehrere Betrachtungs-/Erfassungs-/Ankerpositionen darstellt. Insbesondere ist der Strahlursprung/die Strahlposition für mindestens einige Pixel in einem kombinierten Bild unterschiedlich, und somit kann ein kombiniertes Bild eine Betrachtung der Szene aus unterschiedlichen Richtungen darstellen.
  • Der kombinierte Bildgenerator 403 kann dementsprechend angeordnet sein, um eine Vielzahl von kombinierten Bildern aus den Quellbildern zu erzeugen, wobei jedes kombinierte Bild aus einem Satz von mindestens zwei Quellbildern abgeleitet wird und wobei in der Regel die Ableitung eines ersten kombinierten Bildes nur einen Teil jedes dieser mindestens zwei Quellbilder einschließt. Ferner stellt jedes Pixel eines gegebenen kombinierten Bildes die Szene für eine Strahlpose dar, und die Strahlposen für jedes kombinierte Bild können mindestens zwei unterschiedliche Positionen umfassen.
  • Der kombinierte Bildgenerator 403 ist mit einem Auswerter 405 gekoppelt, dem die kombinierten Bilder und die Quellbilder zugeführt werden. Der Auswerter 405 ist angeordnet, um Vorhersagequalitätsmaße für Elemente der Quellbilder zu bestimmen. Ein Element kann ein einzelnes Pixel sein, und der Auswerter 405 kann angeordnet sein, um ein Vorhersagequalitätsmaß für jedes Pixel jedes Quellbildes zu bestimmen. In anderen Ausführungsformen können Elemente eine Vielzahl von Pixeln umfassen und jedes Element kann eine Gruppe von Pixeln sein. Zum Beispiel kann ein Vorhersagequalitätsmaß für Blöcke von z. B. 4x4 oder 16x16 Blöcken von Pixeln bestimmt werden. Dies kann die Granularität der Segmente oder Fragmente, die bestimmt werden, verringern, kann aber die Verarbeitungskomplexität und Ressourcennutzung wesentlich verringern.
  • Das Vorhersagequalitätsmaß für ein gegebenes Element wird derart erzeugt, dass es eine Differenz zwischen Pixelwerten in dem ersten Quellbild für Pixel in dem Element und vorhergesagten Pixelwerten für Pixel in dem Element angibt. Somit kann ein Element aus einem oder mehreren Pixeln bestehen, und das Vorhersagequalitätsmaß für das Element kann die Differenz zwischen den Pixelwerten für diese Pixel in dem ursprünglichen Quellbild und den Pixelwerten für die Pixel angeben, die sich aus einer Vorhersage aus den kombinierten Bildern ergeben würden.
  • Es versteht sich, dass unterschiedliche Ansätze zum Bestimmen von Vorhersagequalitätsmaßen in unterschiedlichen Ausführungsformen verwendet werden können. Insbesondere kann der Auswerter 405 in vielen Ausführungsformen fortfahren, tatsächlich eine Vorhersage jedes der Quellbilder aus den kombinierten Bildern durchzuführen. Er kann dann für jedes einzelne Bild und jedes einzelne Pixel die Differenz zwischen dem ursprünglichen Pixelwert und dem vorhergesagten Pixelwert bestimmen. Es versteht sich, dass jedes geeignete Differenzmaß verwendet werden kann, wie z. B. eine einfache absolute Differenz, eine Summenquadratwurzeldifferenz, die auf die Pixelwertkomponenten von z. B. mehreren Farbkanälen angewendet wird, usw.
  • Eine solche Vorhersage kann somit die Vorhersage-/Betrachtungssynthese emulieren, die vom Bildsignalempfänger 500 durchgeführt werden kann, um Ansichten für die Betrachtungsposen der Quellbilder zu erzeugen. Die Vorhersagequalitätsmaße spiegeln somit wider, wie gut ein Empfänger der kombinierten Bilder die ursprünglichen Quellbilder nur auf der Basis der kombinierten Bilder erzeugen kann.
  • Ein vorhergesagtes Bild für ein Quellbild aus den kombinierten Bildern kann ein Bild für die Betrachtungspose des Quellbildes sein, das durch Betrachtungssynthese aus den kombinierten Bildern erzeugt wird. Die Betrachtungssynthese schließt typischerweise eine Betrachtungsposenverschiebung und typischerweise eine Betrachtungspositionsverschiebung ein. Die Betrachtungssynthese kann eine Betrachtungsverschiebungsbildsynthese sein.
  • Eine Vorhersage eines ersten Bildes aus einem zweiten Bild kann insbesondere eine Betrachtungssynthese eines Bildes in der Betrachtungspose des ersten Bildes basierend auf dem zweiten Bild (und der Betrachtungspose davon) sein. Somit kann eine Vorhersageoperation zum Vorhersagen eines ersten Bildes aus einem zweiten Bild eine Betrachtungsposenverschiebung des zweiten Bildes aus der diesem zugeordneten Betrachtungspose in die Betrachtungspose des ersten Bildes sein.
  • Es versteht sich, dass unterschiedliche Verfahren und Algorithmen zur Betrachtungssynthese und -vorhersage in unterschiedlichen Ausführungsformen verwendet werden können. In vielen Ausführungsformen kann ein Betrachtungssynthese/Vorhersagealgorithmus verwendet werden, der als Eingabe eine Synthesebetrachtungspose, für die das synthetisierte Bild erzeugt werden soll, und eine Vielzahl von Eingabebildern nimmt, von denen jedes einer anderen Betrachtungspose zugeordnet ist. Der Betrachtungssynthesealgorithmus kann dann das synthetisierte Bild für diese Betrachtungspose basierend auf den Eingabebildern erzeugen, die typischerweise sowohl eine Texturkarte als auch eine Tiefe einschließen können.
  • Es sind eine Reihe solcher Algorithmen bekannt, wobei jeder geeignete Algorithmus verwendet werden kann, ohne die Erfindung zu beeinträchtigen. Als Beispiel für einen solchen Ansatz können zunächst für jedes Eingabebild Zwischensynthese-/Vorhersagebilder erzeugt werden. Dies kann beispielsweise dadurch erreicht werden, dass zunächst ein Netz für das Eingabebild basierend auf der Tiefenkarte des Bildes erzeugt wird. Das Netz kann dann auf der Grundlage geometrischer Berechnungen aus der Betrachtungspose des Eingabebildes in die Synthesebetrachtungspose verzerrt/verschoben werden. Die Scheitelpunkte des resultierenden Netzes können dann auf das Zwischensynthese-/Vorhersagebild projiziert werden und die Texturkarte kann diesem Bild überlagert werden. Ein solches Verfahren kann beispielsweise unter Verwendung von Vertex-Verarbeitung und Fragment-Shadern durchgeführt werden, die z. B. aus Standard-Graphik-Pipelines bekannt sind.
  • Auf diese Weise kann ein Zwischensynthese-/Vorhersagebild (im Folgenden nur Zwischenvorhersagebild) für die Synthesebetrachtungspose für jedes der Eingabebilder erzeugt werden.
  • Die Zwischenvorhersagebilder können dann miteinander kombiniert werden, z. B. durch eine gewichtete Kombination/Summation oder durch eine Selektionskombination. Zum Beispiel kann in einigen Ausführungsformen jedes Pixel des Synthese-/Vorhersagebildes für die Synthesebetrachtungspose durch Auswählen des Pixels aus dem Zwischenvorhersagebild erzeugt werden, das am weitesten vorne ist, oder das Pixel durch eine gewichtete Summierung des entsprechenden Pixelwerts für alle Zwischenvorhersagebilder erzeugt werden kann, wobei das Gewicht für ein gegebenes Zwischenvorhersagebild von der für dieses Pixel bestimmten Tiefe abhängt. Die Kombinationsoperation wird auch als Mischoperation bezeichnet.
  • In einigen Ausführungsformen können die Vorhersagequalitätsmaße durchgeführt werden, ohne eine vollständige Vorhersage durchzuführen, sondern vielmehr kann ein indirektes Maß der Vorhersagequalität verwendet werden.
  • Das Vorhersagequalitätsmaß kann beispielsweise indirekt durch Auswertung eines Parameters des an der Betrachtungsverschiebung beteiligten Prozesses bestimmt werden. Zum Beispiel das Ausmaß der geometrischen Verzerrung (Dehnung), die zu einem Grundelement (in der Regel einem Dreieck) führt, wenn die Betrachtungsposenverschiebung durchgeführt wird. Je größer die geometrische Verzerrung ist, desto geringer ist das Vorhersagequalitätsmaß für jeden durch dieses Primitiv dargestellten Bildpunkt.
  • Der Auswerter 405 kann somit Vorhersagequalitätsmaße für Elemente der Vielzahl von Quellbildern bestimmen, wobei ein Vorhersagequalitätsmaß für ein Element eines ersten Quellbildes eine Differenz zwischen vorhergesagten Pixelwerten für Pixel in dem Element, die aus der Vielzahl von kombinierten Bildern vorhergesagt werden, und Pixelwerten in dem ersten Quellbild für Pixel in dem Element angibt.
  • Der Auswerter 405 ist mit einem Bestimmer 407 gekoppelt ist, der angeordnet ist, um Segmente der Quellbilder zu bestimmen, die Elemente umfassen, für die das Vorhersagequalitätsmaß angibt, dass die Differenz über einem Schwellenwert liegt/das Vorhersagequalitätsmaß angibt, dass eine Vorhersagequalität unter einem Schwellenwert liegt.
  • Die Segmente können einzelnen Elementen entsprechen, die vom Auswerter 405 bestimmt werden und für die das Vorhersagequalitätsmaß unter einem Qualitätsschwellenwert liegt. In vielen Ausführungsformen kann der Bestimmer 407 jedoch angeordnet sein, um Segmente durch Gruppieren solcher Elemente zu erzeugen, und tatsächlich kann die Gruppierung auch einige Elemente einschließen, für die das Vorhersagequalitätsmaß über dem Schwellenwert liegt.
  • Zum Beispiel kann in einigen Ausführungsformen der Bestimmer 407 angeordnet sein, um Segmente durch Gruppieren aller benachbarten Elemente zu erzeugen, die ein Vorhersagequalitätsmaß unter einem Qualitätsschwellenwert aufweisen (im Folgenden als Niedrigvorhersagequalitätsmaße bzw. Niedrigqualitätselemente bezeichnet).
  • In anderen Ausführungsformen kann der Bestimmer 407 z. B. so angeordnet sein, dass er Segmente einer gegebenen Größe und Form an die Bilder anpasst, so dass sie möglichst viele Elemente niedriger Qualität einschließen.
  • Der Bestimmer 407 erzeugt demnach eine Menge von Segmenten, die die Niedrigqualitätselemente einschließen und somit aus den kombinierten Bildern nicht ausreichend genau vorhergesagt werden können. Typischerweise entsprechen die Segmente einem geringen Anteil der Quellbilder und somit einer relativ geringen Menge an Bilddaten und Pixeln.
  • Der Bestimmer 407 und der kombinierte Bildgenerator 403 sind mit einem Bildsignalgenerator 409 gekoppelt, der die kombinierten Bilder und die Segmente empfängt. Der Bildsignalgenerator 409 ist angeordnet, um ein Bildsignal zu erzeugen, das Bilddaten, die die kombinierten Bilder darstellen, und Bilddaten, die Segmente darstellen, umfasst.
  • Der Bildsignalgenerator 409 kann speziell die kombinierten Bilder und die Segmente codieren und dies speziell unterschiedlich tun und unterschiedliche Algorithmen und Codierungsstandards für die kombinierten Bilder und für die Segmente verwenden.
  • Typischerweise werden die kombinierten Bilder unter Verwendung hocheffizienter Bildcodieralgorithmen und Standards codiert, oder hocheffizienter Videocodieralgorithmen und Standards, wenn die Bilder Frames eines Videosignals sind.
  • Die Codierung der Segmente kann typischerweise weniger effizient sein. Zum Beispiel können die Segmente zu Segmentbildern kombiniert werden, wobei jedes Bild in der Regel Segmente aus einer Vielzahl von Quellbildern umfassen kann. Solche kombinierten Segmentbilder können dann unter Verwendung eines Standardbild- oder Videocodieralgorithmus codiert werden. Aufgrund der gemischten und partiellen Natur solcher kombinierter Segmentbilder ist die Codierung jedoch typischerweise weniger effizient als bei normalen Vollbildern.
  • Als ein weiteres Beispiel können aufgrund der dünn besetzten Natur der Segmente diese möglicherweise nicht in vollständigen Einzelbildern/Bildern gespeichert werden. In einigen Ausführungsformen können die Segmente beispielsweise als Maschen im 3D-Raum unter Verwendung von VRML (Virtual Reality Modeling Language) dargestellt werden.
  • Die Bilddaten für die Segmente können in der Regel von Metadaten begleitet werden, die den Ursprung der Segmente angeben, wie z. B. die ursprünglichen Bildkoordinaten und den Kamera-/Quellbildursprung.
  • Das Bildsignal wird im Beispiel an den Bildsignalempfänger 500 übertragen, der Teil der VR-Client-Vorrichtung 101 ist. Der Bildsignalempfänger 500 umfasst einen Bildsignalempfänger 501, der das Bildsignal vom Bildsignalsender 400 empfängt. Der Bildsignalempfänger 501 ist angeordnet, um das empfangene Bildsignal zu decodieren, um die kombinierten Bilder und die Segmente wiederherzustellen.
  • Der Bildsignalempfänger 501 ist mit einem Bildprozessor 503 gekoppelt, der angeordnet ist, um das Bildsignal, und zwar die kombinierten Bilder und die Segmente, zu verarbeiten.
  • In vielen Ausführungsformen kann der Bildprozessor 503 angeordnet sein, um Betrachtungsbilder für unterschiedliche Betrachtungsposen basierend auf den kombinierten Bildern und Segmenten zu synthetisieren.
  • In einigen Ausführungsformen kann der Bildprozessor 503 damit fortfahren, zuerst die Quellbilder zu synthetisieren. Die Teile der synthetisierten Quellnachrichten, für die ein Segment im Bildsignal enthalten ist, können dann durch die Bilddaten der bereitgestellten Segmente ersetzt werden. Die resultierenden Quellbilder können dann für die herkömmliche Bildsynthese verwendet werden.
  • In anderen Ausführungsformen können die kombinierten Bilder und Segmente direkt verwendet werden, ohne zuerst die Quellbilder wiederherzustellen.
  • Es versteht sich, dass der Bildsignalsender 400 und der Bildsignalempfänger 500 eine erforderliche Funktionalität zum Kommunizieren des Bildsignals umfassen, einschließlich Funktionalität zum Codieren, Modulieren, Übertragen, Empfangen usw. des Bildsignals. Es versteht sich, dass eine solche Funktionalität von den Präferenzen und Anforderungen der einzelnen Ausführungsform abhängt und dass solche Techniken dem Fachmann bekannt sind und daher aus Gründen der Klarheit und Kürze hierin nicht weiter erörtert werden.
  • Verschiedene Ansätze können verwendet werden, um die kombinierten Bilder in unterschiedlichen Ausführungsformen zu erzeugen.
  • In einigen Ausführungsformen kann der kombinierte Bildgenerator 403 angeordnet sein, um die kombinierten Bilder durch Auswahl von Pixeln aus den Quellbildern zu erzeugen. Zum Beispiel kann der kombinierte Bildgenerator 403 für jedes Pixel in einem kombinierten Bild ein Pixel in einem der Quellbilder auswählen.
  • Eine Bild- und/oder Tiefenkarte umfasst Pixel mit Werten, die als die entsprechende Bildeigenschaft (Lichtintensität/-intensitäten oder Tiefe) der Szene entlang eines Strahls mit einer Strahlrichtung (Ausrichtung) von einem Strahlursprung (Position) berücksichtigt werden können. Der Strahlursprung ist in der Regel die Bildbetrachtungspose für das Bild, kann aber in einer Darstellung auf Pixelbasis variieren (wie beispielsweise für Omni-Directional Stereo, wobei das Bild als solches als eine Betrachtungspose aufweisend berücksichtigt werden kann, die der Mitte des Omni-Directional Stereo-Kreises entspricht, wobei jedoch jedes Pixel eine individuelle Betrachtungspose aufweist, die der Position auf dem Omni-Directional Stereo-Kreis entspricht). Die Strahlrichtung kann typischerweise pixelweise variieren, insbesondere für Bilder, bei denen alle Pixel denselben Strahlursprung haben (d. h., es gibt eine einzige gemeinsame Bildbetrachtungspose). Strahlursprung und/oder -richtung werden häufig auch als Strahlpose oder Strahlprojektionspose bezeichnet.
  • Somit ist jedes Pixel mit einer Position verknüpft, die der Ursprung einer Strahl/Geraden ist. Jedes Pixel ist ferner mit einer Richtung verknüpft, welche die Richtung des Strahls/der Geraden vom Ursprung ist. Dementsprechend ist jedes Pixel mit einer Strahl/Geraden verknüpft, die durch eine Position/einen Ursprung und eine Richtung von dieser Position/diesem Ursprung definiert ist. Der Pixelwert ist durch die geeignete Eigenschaft für die Szene am ersten Schnittpunkt des Strahls für den Pixel und eines Szenenobjekts (einschließlich eines Hintergrunds) gegeben. Somit stellt der Pixelwert eine Eigenschaft der Szene entlang einer Strahl/Geraden dar, die von einer Strahlursprungsposition ausgeht und eine dem Pixel zugeordnete Strahlrichtung aufweist. Der Pixelwert stellt eine Eigenschaft der Szene entlang eines Strahls mit der Strahlpose des Pixels dar.
  • Der kombinierte Bildgenerator 403 kann somit für ein gegebenes erstes Pixel in dem kombinierten Bild, das erzeugt wird, entsprechende Pixel in den Quellbildern als Pixel bestimmen, die gleiche Strahlrichtung darstellen. Dementsprechend können entsprechende Pixel Pixel sein, die dieselbe Strahlrichtung darstellen, die jedoch unterschiedliche Positionen aufweisen können, da die Quellbilder unterschiedlichen Positionen entsprechen können.
  • So kann der kombinierte Bildgenerator 403 grundsätzlich für einen gegebenen Bildpunkt des kombinierte Bildes eine Strahlrichtung bestimmen und dann alle Bildpunkte in den Quellbildern bestimmen, die innerhalb einer gegebenen Ähnlichkeitsbedingung gleiche Strahlrichtungen aufweisen und diese als entsprechende Bildpunkte betrachten. Somit weisen entsprechende Pixel typischerweise die gleiche Strahlrichtung, jedoch unterschiedliche Strahlpositionen/Ursprünge auf.
  • Die Ansichten aus den unterschiedlichen Quellbetrachtungsposenbildern können z. B. neu abgetastet werden, sodass entsprechende Bildkoordinaten entsprechende Strahlrichtungen aufweisen. Wenn die Quellansichten beispielsweise in einem partiellen äquirektangulären Projektionsformat dargestellt werden, werden sie erneut auf eine volle 360°/180°-Version abgetastet. Zum Beispiel kann eine Betrachtungskugel definiert werden, welche die gesamte Betrachtungsquellenkonfiguration umgibt. Diese Betrachtungskugel kann in Pixel unterteilt werden, wobei jedes Pixel eine Strahlrichtung aufweist. Für ein gegebenes Quellbild kann jedes Pixel auf die Betrachtungskugeldarstellung neu abgetastet werden, indem der Wert des Betrachtungskugelpixels für eine gegebene Strahlrichtung auf den Pixelwert für das Pixel in der Quellansicht eingestellt wird, das die gleiche Strahlrichtung aufweist.
  • Das erneute Abtasten der Quellbilder auf einer Kugeloberflächendarstellung mit voller Ansicht führt in der Regel zu N teilweise gefüllten Bildern, da die einzelnen Bilder in der Regel begrenzte Betrachtungsfenster aufweisen und wobei N die Anzahl der Quellbilder ist. Jedoch neigen die Betrachtungsfenster dazu, sich zu überlappen, und dementsprechend neigt der Satz von Betrachtungskugeloberflächendarstellungen dazu, mehrere Pixelwerte für jede gegebene Richtung bereitzustellen.
  • Der kombinierte Bildgenerator 403 kann nun fortfahren, mindestens ein, aber typischerweise eine Vielzahl von kombinierten Bildern durch Auswählen zwischen den entsprechenden Pixeln zu erzeugen.
  • Insbesondere kann ein erstes kombiniertes Bild erzeugt werden, um einen Teil der Szene abzudecken. Zum Beispiel kann ein kombiniertes Bild mit einer vorbestimmten Größe erzeugt werden, um einen bestimmten Bereich von Pixeln in den Betrachtungskugeldarstellungen abzudecken, wodurch dieser Abschnitt der Szene beschrieben wird. In einigen Ausführungsformen kann jedes der kombinierten Bilder die gesamte Szene abdecken und die gesamte Kugeloberfläche einschließen.
  • Für jedes Pixel in dem ersten kombinierten Bild kann der kombinierte Bildgenerator 403 nun die entsprechenden Pixel in den Betrachtungskugeldarstellungen berücksichtigen und fortfahren, eines der Pixel auszuwählen. Der kombinierte Bildgenerator 403 kann insbesondere das erste kombinierte Bild erzeugen, indem er den Pixelwert für das kombinierte Bild als den Pixelwert für das entsprechende Pixel in dem Betrachtungsquellbild auswählt, für welches das entsprechende Pixel einen Strahl mit dem größten Abstand von dem Mittelpunkt in einer ersten Richtung entlang einer ersten Achse senkrecht zu einer Strahlrichtung für das entsprechende Pixel darstellt.
  • Der Abstand vom Mittelpunkt zu einer Strahlrichtung kann als der Abstand zwischen den Strahlen des Mittelpunkts und dem entsprechenden Pixel für dieses Pixel des kombinierten Bildes bestimmt werden.
  • Die Auswahl kann durch 6 beispielhaft beschrieben werden, die auf dem Beispiel einer kreisförmigen Quellbetrachtungsposenkonfiguration mit einem Mittelpunkt C basiert.
  • Im Beispiel wird die Bestimmung eines Bildpunktes eines kombinierten Bildes mit einer Strahlrichtung rc berücksichtigt. Kameras/Quellansichten 1-4 erfassen diese Richtung, sodass vier entsprechende Pixel existieren. Jedes dieser entsprechenden Pixel stellt eine unterschiedliche Pose dar und stellt dementsprechend Strahlen dar, die von unterschiedlichen Positionen ausgehen, wie gezeigt. Dementsprechend besteht ein Versatzabstand pl-p4 zwischen den Strahlen und dem Strahl des kombinierten Bildes rc, der dem Abstand zwischen dem Mittelpunkt C und den Strahlen entspricht, wenn diese nach hinten verlaufen (um die Achse 601 zu kreuzen).
  • 6 zeigt auch eine Richtung/Achse 601 senkrecht zum Strahl rc. Für ein erstes kombinierte Bild kann der kombinierte Bildgenerator 403 nun dasjenige Pixel auswählen, für das der Strahlabstand in dieser Richtung am größten ist. Somit wird in diesem Fall der kombinierte Bildpixelwert als der Pixelwert für Kamera/Ansicht 1 ausgewählt, da p1 der größte Abstand in dieser Richtung ist.
  • Der kombinierte Bildgenerator 403 kann in der Regel ferner fortfahren, ein zweites kombiniertes Bild zu bestimmen, indem derselbe Vorgang durchgeführt wird, aber die entsprechenden Pixel ausgewählt werden, die den größten Abstand in der entgegengesetzten Richtung aufweisen (es könnte berücksichtigt werden, dass das Erzeugen des ersten und des zweiten kombinierten Bildes durch Auswählen des größten positiven bzw. negativen Abstands in Bezug auf die erste Richtung erfolgen kann, wenn der Abstand als positiv gemessen wird, wenn er sich in derselben Richtung wie die Achse befindet, und als negativ, wenn er sich in der anderen Richtung befindet). Somit wird in diesem Fall der kombinierte Bildgenerator 403 den kombinierte Bildpixelwert als Pixelwert für Kamera/Ansicht 4 auswählen, da p4 der größte Abstand in dieser Richtung ist.
  • In vielen Ausführungsformen kann der kombinierte Bildgenerator 403 ferner fortfahren, ein drittes kombiniertes Bild zu erzeugen, indem derselbe Vorgang durchgeführt wird, aber die entsprechenden Pixel ausgewählt werden, die den kleinsten Abstand in jeder Richtung (den kleinsten absoluten Abstand) aufweisen. Somit wählt in diesem Fall der kombinierte Bildgenerator 403 den kombinierten Bildpixelwert als den Pixelwert für Kamera/Ansicht 3 aus, da p3 der kleinste Abstand ist.
  • Auf diese Weise kann der kombinierte Bildgenerator 403 somit drei kombinierte Bilder für denselben Teil der Szene (und möglicherweise für die gesamte Szene) erzeugen. Eines der Bilder entspricht einer Auswahl von Pixeln, die seitlichste Ansicht der Szene aus einer Richtung bereitstellen, eines, das die seitlichste Ansicht der Szene aus der entgegengesetzten Richtung darstellt, und eines, das die zentralste Ansicht der Szene darstellt. Dies kann durch 7 veranschaulicht werden, welche die Betrachtungsrichtungen zeigt, die aus jeder Ansicht/Kamera für das mittlere kombinierte Bild bzw. die zwei seitlich kombinierten Bilder ausgewählt werden.
  • Die resultierenden Bilder liefern somit eine überaus effiziente Darstellung der Szene, wobei ein kombiniertes Bild typischerweise die beste Darstellung für Vordergrundobjekte liefert und die beiden anderen kombiniert werden, um fokussierte Hintergrunddaten zu liefern.
  • In einigen Ausführungsformen kann der kombinierte Bildgenerator 403 so angeordnet sein, dass er ferner ein oder mehrere kombinierte Bilder erzeugt, indem er entsprechende Pixel gemäß einer Achsenrichtung auswählt, die senkrecht zur Strahlrichtung ist, sich jedoch von der zuvor verwendeten Achsenrichtung unterscheidet. Dieser Ansatz kann für nicht planare Quellbetrachtungsposenkonfigurationen (d. h. dreidimensionale Konfigurationen) geeignet sein. Zum Beispiel können für eine kugelförmige Quellbetrachtungsposenkonfiguration mehr als zwei Ebenen in Betracht gezogen werden. Zum Beispiel kann eine Ebene bei 0, 60 und 120 Grad betrachtet werden, oder es können zwei orthogonale Ebenen betrachtet werden (z. B. Links-Rechts-und Auf-Ab-Ebenen).
  • In einigen Ausführungsformen können die kombinierten Bilder durch Betrachtungssynthese/-vorhersage aus den Quellbildern erzeugt werden. Der Bildgenerator 103 kann insbesondere kombinierte Bilder erzeugen, die Ansichten der Szene aus anderen Betrachtungspositionen und insbesondere aus anderen Betrachtungspositionen als denen der Quellbilder darstellen. Ferner wird im Gegensatz zur herkömmlichen Bildsynthese kein kombiniertes Bild erzeugt, um die Ansicht der Szene aus einer einzigen Betrachtungs-/Erfassungsposition darzustellen, sondern kann die Szene aus unterschiedlichen Betrachtungspositionen auch innerhalb desselben kombinierten Bildes darstellen. Somit kann ein kombiniertes Bild erzeugt werden, indem Pixelwerte für die Pixel des kombinierten Bildes durch Betrachtungssynthese/-vorhersage aus den Quellbildern erzeugt werden, wobei jedoch die Pixelwerte unterschiedliche Betrachtungspositionen darstellen.
  • Insbesondere kann für ein gegebenes Pixel in dem kombinierten Bild eine Betrachtungssynthese/-vorhersage durchgeführt werden, um den Pixelwert zu bestimmen, der spezifischen Strahlpose für dieses Pixel entspricht. Dies kann für alle Pixel des kombinierten Bildes wiederholt werden, wobei jedoch mindestens einige der Pixel Strahlposen mit unterschiedlichen Positionen aufweisen.
  • Zum Beispiel kann ein einzelnes kombiniertes Bild eine 360°-Darstellung der Szene bereitstellen, die z. B. einer Oberfläche einer Betrachtungskugel entspricht, welche die gesamte Quellbetrachtungsposenkonfiguration umgibt. Die Ansichten unterschiedlicher Teile der Szene können jedoch von unterschiedlichen Positionen innerhalb desselben kombinierten Bildes dargestellt werden. 8 veranschaulicht ein Beispiel, bei dem das kombinierte Bild Pixel umfasst, die zwei unterschiedliche Strahlpositionen (und somit Pixelbetrachtungspositionen) darstellen, nämlich einen ersten Strahlursprung 801, der für Pixel verwendet wird, die eine Halbkugel darstellen, und einen zweiten Strahlursprung 803, der die andere Halbkugel darstellt. Für jede dieser Strahlpositionen/-ursprünge sind Pixel mit unterschiedlichen Strahlrichtungen, wie durch die Pfeile dargestellt, bereitgestellt. In dem spezifischen Beispiel umfasst die Quellbetrachtungsposenkonfiguration acht Quellansichten (1-8) in einer kreisförmigen Anordnung. Jede Kameraansicht liefert nur eine Teilansicht, d. h. eine 90°-Ansicht, jedoch mit einer Überlappung zwischen den Ansichten. Für ein gegebenes Pixel in dem kombinierten Bild kann es eine zugehörige Strahlpose geben, und der Pixelwert für diese Strahlpose kann durch Betrachtungssynthese/-vorhersage aus den Quellansichten bestimmt werden.
  • Grundsätzlich kann jedes Pixel des kombinierten Bildes individuell synthetisiert werden, jedoch wird in vielen Ausführungsformen eine kombinierte Synthese für eine Vielzahl von Pixeln durchgeführt. Zum Beispiel kann ein einzelnes 180°-Bild für die erste Position 801 aus den Betrachtungsquellbildern synthetisiert werden (z. B. unter Verwendung der Positionen 2, 1, 8, 7, 6, 5, 4), und ein einzelnes 180° kann für die zweite Position 803 aus den Betrachtungsquellbildern synthetisiert werden (z. B. unter Verwendung der Positionen 6, 5, 4, 3, 2, 1, 8). Das kombinierte Bild kann dann durch Kombination derselben erzeugt werden. Wenn sich die separat synthetisierten Bilder überlappen, kann eine Kombination oder Mischung verwendet werden, um das kombinierte Bild zu erzeugen. Alternativ können überlappende Teile der kombinierten Bilder gedeckt sein, indem z. B. ein reservierter Farb- oder Tiefenwert zugewiesen wird. Hierdurch wird die Effizienz der Videocodierung erhöht.
  • In vielen Ausführungsformen können eines oder mehrere der kombinierten Bilder erzeugt werden, um die Szene aus einem Gesichtspunkt darzustellen, der eine seitlichere Betrachtung auf die Szene bereitstellt. Zum Beispiel entspricht in 8 der Mittelpunkt des Betrachtungskreises dem Mittelpunkt der Quellbetrachtungsposen und dem Mittelpunkt der Positionen der Strahlursprünge für das kombinierte Bild. Die Strahlrichtungen für einen gegebenen Strahlursprung 801, 803 liegen jedoch nicht in einer überwiegend radialen Richtung, sondern geben vielmehr eine Seitenansicht der Szene an. Genauer stellen in dem Beispiel sowohl der erste Strahlenursprung 801 als auch der zweite Strahlenursprung 803 Ansichten in einer Linksrichtung bereit, d. h. die Strahlrichtungen für beide sind links, wenn sie dem Strahlenursprung 801, 803 vom Mittelpunkt zugewandt sind.
  • Der Bildgenerator 103 kann fortfahren, ein zweites kombiniertes Bild zu erzeugen, das eine andere Ansicht der Szene darstellt, und kann oft vorteilhaft eine zweite Ansicht der Szene erzeugen, die zu der ersten Ansicht komplementär ist, jedoch in die entgegengesetzte Richtung schaut. Beispielsweise kann der Bildgenerator 103 ein zweites kombiniertes Bild erzeugen, das die gleichen Strahlursprünge verwendet, bei dem jedoch die Strahlrichtungen entgegengesetzt sind. Zum Beispiel kann der Bildgenerator 103 ein zweites kombiniertes Bild erzeugen, das der Konfiguration von 9 entspricht.
  • Die beiden Bilder können eine sehr vorteilhafte und komplementäre Darstellung der Szene bereitstellen und können typischerweise eine verbesserte Darstellung von Hintergrundteilen der Szene bereitstellen.
  • In vielen Ausführungsformen kann das kombinierte Bild auch ein oder mehrere Bilder einschließen, die erzeugt werden, um eine frontalere Ansicht bereitzustellen, wie z. B. eine, die der Konfiguration von 10 entspricht. Ein solches Beispiel kann in vielen Ausführungsformen eine verbesserte Darstellung der Vorderseite von Vordergrundobj ekten bereitstellen.
  • Es versteht sich, dass unterschiedliche Strahlursprungskonfigurationen in unterschiedlichen Ausführungsformen verwendet werden können und dass insbesondere mehr Ursprünge verwendet werden können. Beispielsweise zeigen 11 und 12 Beispiele von zwei komplementären Konfigurationen zum Erzeugen seitlich schauender kombinierter Bilder, wobei die Strahlursprünge in diesem Fall auf einer Krümmung (genauer einem Kreis) verteilt sind, die die Betrachtungsquellkonfiguration in diesem Fall umgibt (oft würde eine solche Krümmung so ausgewählt, dass sie sich eng an die Quellbetrachtungsposenkonfiguration anpasst). Die Figuren zeigen nur Ursprünge und Posen für einen Teil des Kreises/der Krümmung, und man wird zu schätzen wissen, dass in vielen Ausführungsformen eine vollständige sphärische oder 360°-Ansicht erzeugt wird.
  • 7 kann tatsächlich als eine andere beispielhafte Konfiguration veranschaulichend betrachtet werden, bei der drei kombinierte Bilder basierend auf acht Strahlpositionen auf einem Kreis um einen Mittelpunkt erzeugt werden. Für das erste kombinierte Bild sind Richtungen um eine Radiale für einen Kreis ausgewählt, für das zweite Bild sind Strahlrichtungen um einen rechten 90°-Winkel ausgewählt und für das dritte Bild sind Strahlrichtungen um einen linken 90°-Winkel ausgewählt. Eine solche Kombination kombinierter Bilder kann eine hocheffiziente kombinierte Darstellung einer Szene bereitstellen.
  • In einigen Ausführungsformen kann der Bildgenerator 103 somit angeordnet sein, um Pixelwerte für die kombinierten Bilder für spezifische Strahlposen durch Betrachtungssynthese aus den Quellbildern zu erzeugen. Die Strahlposen können für unterschiedliche kombinierte Bilder unterschiedlich ausgewählt werden.
  • Insbesondere können in vielen Ausführungsformen die Strahlposen für ein Bild ausgewählt werden, um eine seitliche Ansicht der Szene vom Strahlenursprung bereitzustellen, und die Strahlposen eines anderen Bildes können ausgewählt werden, um eine komplementäre seitliche Ansicht bereitzustellen.
  • Insbesondere können die Strahlposen für ein erstes kombiniertes Bild derart sein, dass ein Skalarprodukt zwischen einem vertikalen Vektor und Pixelkreuzproduktvektoren für mindestens 90 % (manchmal 95 % oder sogar alle) Pixel des ersten kombinierten Bildes nicht negativ ist. Der Pixelkreuzproduktvektor für ein Pixel wird als ein Kreuzprodukt zwischen einer Strahlrichtung für ein Pixel und einem Vektor von einem Mittelpunkt für die unterschiedlichen Quellbetrachtungsposen zu einer Strahlposition für das Pixel bestimmt.
  • Der Mittelpunkt für die Quellbetrachtungsposen kann als durchschnittliche oder mittlere Position für die Quellbetrachtungsposen erzeugt werden. Zum Beispiel kann jede Koordinate (z. B. x, y, z) individuell gemittelt werden, und die resultierende Durchschnittskoordinate kann der Mittelpunkt sein. Es sollte beachtet werden, dass der Mittelpunkt für eine Konfiguration nicht (notwendigerweise) in der Mitte eines kleinsten Kreises/einer kleinsten Kugel liegt, der/die Quellbetrachtungsposen umfasst.
  • Der Vektor vom Mittelpunkt zum Strahlursprung für ein gegebenes Pixel ist somit ein Vektor im Szenenraum, der einen Abstand und eine Richtung vom Mittelpunkt zur Betrachtungsposition für dieses Pixel definiert. Die Strahlrichtung kann durch einen (ny) Vektor dargestellt werden, der die gleiche Richtung aufweist, d. h., sie kann ein Vektor vom Strahlursprung zu dem durch das Pixel dargestellten Szenenpunkt sein (und somit auch ein Vektor im Szenenraum sein).
  • Das Kreuzprodukt zwischen solchen zwei Vektoren wird senkrecht zu beiden sein. Für eine horizontale Ebene (im Szenenkoordinatensystem) ergibt sich bei einer Strahlrichtung nach links (vom Mittelpunkt aus gesehen) ein Kreuzproduktvektor, der in einem x-, y-, z-Szenenkoordinatensystem eine Aufwärtskomponente, d. h. eine positive z-Komponente aufweist, wobei z die Höhe angibt. Der Kreuzproduktvektor ist für jede linksseitige Ansicht unabhängig vom Strahlursprung aufwärts gerichtet, zum Beispiel ist er für alle Pixel/Strahlpositionen von 8 aufwärts gerichtet.
  • Umgekehrt ist für eine rechtsseitige Ansicht der Kreuzproduktvektor für alle Strahlpositionen abwärts gerichtet, z. B. ergibt sich für alle Pixel/Strahlposen von 9 eine negative z-Koordinate.
  • Das Skalarprodukt zwischen einem Vertikalvektor im Szenenraum und allen Vektoren mit positiver z-Koordinate ist gleich, nämlich positiv für einen aufwärts weisenden Vertikalvektor und negativ für einen nach abwärts weisenden Vertikalvektor. Umgekehrt wird für eine negative z-Koordinate das Skalarprodukt für einen aufwärts weisenden Vertikalvektor negativ und für einen nach abwärts weisenden Vertikalvektor positiv sein. Dementsprechend hat das Skalarprodukt für rechtsseitigen Strahlposen das gleiche Vorzeichen und für alle linksseitigen Strahlposen das entgegengesetzte Vorzeichen.
  • In einigen Szenarien kann sich ein Nullvektor oder Skalarprodukt ergeben (z. B. für polare Punkte auf einem Betrachtungskreis), und für solche Strahlposen unterscheidet sich das Vorzeichen weder von links- noch von rechtsseitigen Ansichten.
  • Die obigen Betrachtungen gelten sinngemäß auch für eine dreidimensionale Darstellung, wie z. B. dort, wo die Strahlursprünge auf einer Kugel liegen.
  • Somit führen in einigen Ausführungsformen mindestens 90 % und in einigen Ausführungsformen mindestens 95 % oder sogar alle Pixel eines kombinierten Bildes zu einem Skalarprodukt, das keine unterschiedlichen Vorzeichen aufweist, d. h. mindestens, dass viele Pixel eine seitliche Ansicht zur selben Seite aufweisen.
  • In einigen Ausführungsformen können die kombinierten Bilder so erzeugt werden, dass sie Schutzbänder aufweisen, oder z. B. können einige spezifische Kantenpixel spezifische Umstände aufweisen, für die das Skalarprodukt möglicherweise die Anforderung nicht erfüllt. Für die überwiegende Mehrzahl der Pixel ist jedoch die Forderung erfüllt und die Pixel liefern entsprechende seitliche Ansichten.
  • Ferner erfüllen in vielen Ausführungsformen mindestens zwei kombinierte Bilder diese Anforderungen, wobei jedoch die Vorzeichen der Skalarprodukte entgegengesetzt sind. Somit können für ein kombiniertes Bild mindestens 90 % der Pixel eine rechtsseitige Ansicht darstellen und für ein anderes kombiniertes Bild können mindestens 90 % der Pixel eine linksseitige Ansicht darstellen.
  • Die kombinierten Bilder können für Posen erzeugt werden, die eine besonders vorteilhafte Ansicht der Szene bereitstellen. Die Erfinder haben erkannt, dass es in vielen Szenarien besonders vorteilhaft sein kann, kombinierte Bilder für Betrachtungsposen zu erzeugen, die zu einer seitlicheren Ansicht des Hauptteils der Szene führen, und ferner, dass es für eine gegebene Konfiguration der Quellansichten vorteilhaft sein kann, mindestens einige Ansichten zu erzeugen, die nahe an den Extrempositionen der Konfiguration und nicht nahe an der Mitte der Konfiguration liegen.
  • Somit werden in vielen Ausführungsformen mindestens eines und in der Regel mindestens zwei der kombinierten Bilder für Strahlposen erzeugt, die nahe der Grenze eines Bereichs liegen, der der Quellbetrachtungsposenkonfiguration entspricht.
  • Der Bereich kann insbesondere ein Raumbereich (eine Sammlung oder ein Satz von Punkten im Raum) sein, der durch ein größtes Polygon begrenzt ist, das unter Verwendung von mindestens einigen der Betrachtungspositionen als Scheitelpunkte für die Geraden des Polygons gebildet werden kann. Das Polygon kann eine ebene Figur sein, die durch eine endliche Kette von geraden Liniensegmenten begrenzt ist, die sich in einer Schleife schließen, um eine geschlossene Kette oder einen geschlossenen Schaltkreis zu bilden, und dies kann eine eindimensionale Konfiguration einschließen, wie die von 2A (auch als ein degeneriertes Polygon bekannt). Für eine dreidimensionale Konfiguration kann der Bereich einem größtmöglichen Polyeder entsprechen, das durch mindestens einige der Quellbetrachtungspositionen gebildet wird. Somit kann der Bereich ein größtes Polygon oder Polyeder sein, das unter Verwendung von mindestens einigen der Quellbetrachtungspositionen als Scheitelpunkte für die Linien des Polygons oder Polyeders gebildet werden kann.
  • Alternativ kann ein Bereich, der die unterschiedlichen Betrachtungsposen der Vielzahl von Quellbildern einschließt, eine kleinste Linie, ein kleinster Kreis oder eine kleinste Kugel einschließlich aller Betrachtungspositionen sein. Der Bereich kann insbesondere eine kleinste Kugel sein, die alle Quellbetrachtungspositionen einschließt.
  • Somit werden in vielen Ausführungsformen die Strahlposen von mindestens einem der kombinierten Bilder so ausgewählt, dass sie nahe an der Grenze des Bereichs liegen, der die Quellbetrachtungsposenkonfiguration umfasst.
  • In vielen Ausführungsformen wird bestimmt, dass mindestens eine Strahlposition der kombinierten Bilder kleiner als ein erster Abstand von der Grenze des Bereichs ist, wobei dieser erste Abstand nicht mehr als 50 % oder in vielen Fällen 25 % oder 10 % des maximalen (inneren) Abstands zwischen Punkten an der Grenze des Bereichs beträgt. Somit kann von der Position der Betrachtungspose ein minimaler Abstand zur Grenze nicht mehr als 50 %, 25 % oder 10 % eines maximalen Abstands zur Grenze betragen.
  • Dies kann durch 13 veranschaulicht werden, die ein Beispiel von Quellbetrachtungspunkten zeigt, die durch schwarze Punkte angegeben werden. 13 veranschaulicht ferner einen Bereich, der kleinsten Kugel entspricht, die Betrachtungsposen einschließt. In dem Beispiel ist die Betrachtungskonfiguration eine planare, zweidimensionale Konfiguration, und die Betrachtung einer Kugel reduziert sich auf eine Betrachtung eines Kreises 1301. 13 zeigt ferner eine Strahlpose 1303 für ein kombiniertes Bild, das proximal zu Grenze der Kugel/des Kreises/des Bereichs ist. Insbesondere ist der minimale Abstand dmin zur Grenze/Kante des Bereichs viel kleiner (etwa 10 %) als der maximale Abstand dmax zur Grenze/Kante des Bereichs.
  • In einigen Ausführungsformen kann bestimmt werden, dass die Strahlposen eines kombinierten Bildes kleiner als ein erster Abstand von der Grenze des Bereichs sind, in dem der erste Abstand nicht mehr als 20 % oder oft sogar 10 % oder 5 % des maximalen Abstands zwischen zwei Quellbetrachtungsposen beträgt. In dem Beispiel, In dem der Bereich als die kleinste Kugel/der kleinste Kreis einschließlich aller Quellbetrachtungsposen bestimmt wird, ist der maximale Abstand zwischen zwei Betrachtungsposen gleich dem Durchmesser der Kugel/des Kreises, und somit kann die kombinierte Bildbetrachtungspose so ausgewählt werden, dass der minimale Abstand dmin diese Anforderung erfüllt.
  • In einigen Ausführungsformen kann bestimmt werden, dass die Strahlposen eines kombinierten Bildes mindestens ein Mindestabstand von einem Mittelpunkt der unterschiedlichen Betrachtungsposen sind, wobei der Mindestabstand mindestens 50 % und oft sogar 75 % oder 90 % des Abstands vom Mittelpunkt zur Grenze entlang einer Linie durch den Mittelpunkt und die Strahlpose beträgt.
  • In einigen Ausführungsformen werden zwei Betrachtungsposen für die kombinierten Bilder so ausgewählt, dass ein Abstand zwischen diesen mindestens 80 % und manchmal sogar 90 % oder 95 % des maximalen Abstands zwischen zwei Punkten einer Grenze beträgt, die eine Linie durch die zwei Betrachtungsposen schneidet. Wenn zum Beispiel eine Linie durch die zwei Posen gezogen wird, beträgt der Abstand zwischen den zwei Posen mindestens 80 %, 90 % oder 95 % des Abstands zwischen den Punkten, an denen die Linie den Kreis kreuzt.
  • In einigen Ausführungsformen beträgt ein maximaler Abstand zwischen zwei der Strahlposen des ersten kombinierten Bildes mindestens 80 % eines maximalen Abstands zwischen Punkten der Grenze eines Bereichs, der die unterschiedlichen Betrachtungsposen der Vielzahl von Quellbildern umfasst.
  • Die Erfinder haben erkannt, dass der Ansatz zum Erzeugen kombinierter Bilder für Positionen nahe der Grenze/Kante des Bereichs, der die Quellbetrachtungsposen umfasst, besonders vorteilhaft sein kann, da er tendenziell erhöhte Informationen von Hintergrundobjekten in der Szene bereitstellt. Die meisten Hintergrunddaten werden typischerweise von den Kameras oder Bildbereichen erfasst, die den größten seitlichen Abstand zu einem zentralen Betrachtungspunkt aufweisen. Dies kann vorteilhaft mit einem zentraleren kombinierte Bild kombiniert werden, da dadurch tendenziell verbesserte Bildinformationen für Vordergrundobjekte bereitgestellt werden.
  • In vielen Ausführungsformen kann der Bildsignalgenerator 409 so angeordnet sein, dass er ferner Metadaten für die erzeugten Bilddaten einschließt. Insbesondere kann der kombinierte Bildgenerator 403 Ursprungsdaten für die kombinierten Bilder erzeugen, wobei die Ursprungsdaten angeben, welches der Quellbilder der Ursprung für die einzelnen Pixel in den kombinierten Bildern ist. Der Bildsignalgenerator 409 kann diese Daten dann in das erzeugte Bildsignal einbeziehen.
  • In vielen Ausführungsformen kann der Bildsignalgenerator 409 Quellbetrachtungsposendaten einschließen, die Betrachtungsposen für die Quellbilder angeben. Die Daten können insbesondere Daten einschließen, die Position und Richtung für jedes Quellbild/jede Quellansicht definieren.
  • Das Bildsignal kann dementsprechend Metadaten umfassen, die, gegebenenfalls individuell für jedes Pixel, die Position und Richtung angeben, für die Pixelwerte bereitgestellt werden, d. h. eine Strahlposenangabe. Dementsprechend kann der Bildsignalempfänger 500 angeordnet sein, um diese Daten zu verarbeiten, um z. B. eine Betrachtungssynthese durchzuführen.
  • Zum Beispiel können für jedes Pixel der drei Ansichten, die durch Auswahl entsprechender Pixel erzeugt werden, Metadaten eingeschlossen werden, welche die Quellbetrachtungsidentität angeben. Dies kann drei Labelkarten ergeben, eine für die Mittelansicht und zwei für die Seitenansichten. Die Labels können dann ferner mit spezifischen Betrachtungsposendaten verknüpft werden, einschließlich z. B. der Kameraoptik und der Ausrüstungsgeometrie.
  • Es versteht sich, dass die obige Beschreibung der Klarheit halber Ausführungsformen der Erfindung unter Bezugnahme auf unterschiedliche funktionale Schaltungen, Einheiten und Prozessoren beschrieben hat. Es ist jedoch offensichtlich, dass jede geeignete Verteilung der Funktionalität zwischen unterschiedlichen funktionalen Schaltungen, Einheiten oder Prozessoren verwendet werden kann, ohne von der Erfindung abzuweichen. Zum Beispiel kann Funktionalität, die veranschaulicht ist, um durch separate Prozessoren oder Controller durchgeführt zu werden, durch den gleichen Prozessor oder die gleichen Controller durchgeführt werden. Daher sind Bezugnahmen auf spezifische funktionale Einheiten oder Schaltungen nur als Bezugnahmen auf geeignete Mittel zum Bereitstellen der beschriebenen Funktionalität anstatt auf eine strikte logische oder physische Struktur oder Organisation zu sehen.
  • Die Erfindung kann in jeder geeigneten Form implementiert werden, einschließlich Hardware, Software, Firmware oder jede Kombination dieser. Optional kann die Erfindung mindestens teilweise als Computer-Software implementiert sein, die auf einem oder mehreren Datenprozessoren und/oder digitalen Signalprozessoren läuft. Die Elemente und Komponenten einer Ausführungsform der Erfindung können physisch, funktional und logisch auf jede geeignete Weise implementiert sein. Die Funktionalität kann in einer einzigen Einheit, in einer Vielzahl von Einheiten oder als Teil anderer funktionaler Einheiten implementiert sein. Als solche kann die Erfindung in einer einzelnen Einheit implementiert sein oder kann physisch und funktionell zwischen unterschiedlichen Einheiten, Schaltungen und Prozessoren verteilt sein.
  • Obwohl die vorliegende Erfindung in Verbindung mit einigen Ausführungsformen beschrieben wurde, soll sie nicht auf die hierin dargelegte spezielle Form beschränkt sein. Vielmehr ist der Umfang der vorliegenden Erfindung nur durch die beigefügten Ansprüche beschränkt. Obwohl zusätzlich ein Merkmal als in Verbindung mit bestimmten Ausführungsformen beschrieben erscheinen kann, würde der Fachmann erkennen, dass unterschiedliche Merkmale der beschriebenen Ausführungsformen gemäß der Erfindung kombiniert werden können. In den Ansprüchen schließt der Begriff „umfassend“ das Vorhandensein andere Elemente oder Schritte nicht aus.
  • Ferner kann, obwohl einzeln aufgeführt, eine Vielzahl von Mitteln, Elementen, Schaltungen oder Verfahrensschritten durch z. B. eine einzige Schaltung, Einheit oder einen einzigen Prozessor implementiert werden. Zusätzlich können, obwohl einzelne Merkmale in unterschiedlichen Ansprüchen eingeschlossen sein können, diese möglicherweise vorteilhaft kombiniert werden, und der Einschluss in unterschiedlichen Ansprüchen impliziert nicht, dass eine Kombination von Merkmalen nicht machbar und/oder vorteilhaft ist. Auch impliziert der Einschluss eines Merkmals in eine Kategorie von Ansprüchen keine Beschränkung auf diese Kategorie, sondern gibt vielmehr an, dass das Merkmal ebenso auf andere Anspruchskategorien wie geeignet anwendbar ist. Außerdem impliziert die Reihenfolge von Merkmalen in den Ansprüchen keine bestimmte Reihenfolge, in der die Merkmale bearbeitet werden müssen, und insbesondere impliziert die Reihenfolge einzelner Schritte in einem Verfahrensanspruch nicht, dass die Schritte in dieser Reihenfolge durchgeführt werden müssen. Vielmehr können die Schritte in jeder geeigneten Reihenfolge durchgeführt werden. Außerdem schließen Singularbezugnahmen eine Vielzahl nicht aus. Somit schließen Bezugnahmen auf „ein“, „eine“, „erste“, „zweite“ usw. eine Vielzahl nicht aus. Bezugszeichen in den Ansprüchen sind lediglich als Klärungsbeispiel bereitgestellt und sollen den Umfang der Ansprüche in keiner Weise einschränken.
  • Der beschriebene Ansatz kann bereitstellen:
    • Einrichtung zum Erzeugen eines Bildsignals, wobei die Einrichtung umfasst:
      • einen Empfänger (401) zum Empfangen einer Vielzahl von Quellbildern, die eine Szene aus unterschiedlichen Betrachtungsposen darstellen;
      • einen kombinierten Bildgenerator (403) zum Erzeugen einer Vielzahl von kombinierten Bildern aus den Quellbildern, wobei jedes kombinierte Bild aus einem Satz von mindestens zwei Quellbildern der Vielzahl von Quellbildern abgeleitet ist, wobei jedes Pixel eines kombinierten Bildes die Szene für eine Strahlpose darstellt und die Strahlposen für jedes kombinierte Bild mindestens zwei unterschiedliche Positionen einschließen;
      • einen Auswerter (405) zum Bestimmen von Vorhersagequalitätsmaßen für Elemente der Vielzahl von Quellbildern, wobei ein Vorhersagequalitätsmaß für ein Element eines ersten Quellbildes eine Differenz zwischen Pixelwerten in dem ersten Quellbild für Pixel in dem Element und vorhergesagten Pixelwerten für Pixel in dem Element angibt, wobei die vorhergesagten Pixelwerte Pixelwerte sind, die aus der Vorhersage von Pixeln in dem Element aus der Vielzahl von kombinierten Bildern resultieren;
      • einen Bestimmer (407) zum Bestimmen von Segmenten der Quellbilder, die Elemente umfassen, für die das Vorhersagequalitätsmaß eine Differenz über einem Schwellenwert angibt; und
      • einen Bildsignalgenerator (409) zum Erzeugen eines Bildsignals, das Bilddaten, die kombinierten Bilder darstellen, und Bilddaten, die Segmente der Quellbilder darstellen, umfasst.
  • Einrichtung zum Empfangen eines Bildsignals, wobei die Einrichtung umfasst:
    • einen Empfänger (501) zum Empfangen eines Bildsignals, wobei das Bildsignal umfasst:
      • eine Vielzahl von kombinierten Bildern, wobei jedes kombinierte Bild Bilddaten darstellt, die aus einem Satz von mindestens zwei Quellbildern einer Vielzahl von Quellbildern abgeleitet sind, die eine Szene aus unterschiedlichen Betrachtungsposen darstellen, wobei jedes Pixel eines kombinierten Bildes die Szene für eine Strahlpose darstellt und die Strahlposen für jedes kombinierte Bild mindestens zwei unterschiedliche Positionen einschließen;
      • Bilddaten für einen Satz von Segmenten der Vielzahl von Quellbildern, wobei ein Segment für ein erstes Quellbild mindestens ein Pixel des ersten Quellbildes umfasst, für das ein Vorhersagequalitätsmaß für eine Vorhersage des Segments aus der Vielzahl von kombinierten Bildern unter einem Schwellenwert liegt; und
      • einen Prozessor (503) zum Verarbeiten des Bildsignals.
  • Verfahren zum Erzeugen eines Bildsignals, wobei das Verfahren umfasst:
    • Empfangen einer Vielzahl von Quellbildern, die eine Szene aus unterschiedlichen Betrachtungsposen darstellen;
    • Erzeugen einer Vielzahl von kombinierten Bildern aus den Quellbildern, wobei jedes kombinierte Bild aus einem Satz von mindestens zwei Quellbildern der Vielzahl von Quellbildern abgeleitet ist, wobei jedes Pixel eines kombinierten Bildes die Szene für eine Strahlpose darstellt und die Strahlposen für jedes kombinierte Bild mindestens zwei unterschiedliche Positionen einschließen;
    • Bestimmen von Vorhersagequalitätsmaßen für Elemente der Vielzahl von Quellbildern, wobei ein Vorhersagequalitätsmaß für ein Element eines ersten Quellbildes eine Differenz zwischen Pixelwerten in dem ersten Quellbild für Pixel in dem Element und vorhergesagten Pixelwerten für Pixel in dem Element angibt, wobei die vorhergesagten Pixelwerte Pixelwerte sind, die aus der Vorhersage von Pixeln in dem Element aus der Vielzahl von kombinierten Bildern resultieren;
    • Bestimmen von Segmenten der Quellbilder, die Elemente umfassen, für die das Vorhersagequalitätsmaß eine Differenz über einem Schwellenwert angibt; und Erzeugen eines Bildsignals, das Bilddaten, die kombinierten Bilder darstellen, und Bilddaten, die Segmente der Quellbilder darstellen, umfasst.
  • Verfahren zum Verarbeiten eines Bildsignals, wobei das Verfahren umfasst:
    • Empfangen eines Bildsignals, wobei das Bildsignal umfasst:
      • eine Vielzahl von kombinierten Bildern, wobei jedes kombinierte Bild Bilddaten darstellt, die aus einem Satz von mindestens zwei Quellbildern einer Vielzahl von Quellbildern abgeleitet sind, die eine Szene aus unterschiedlichen Betrachtungsposen darstellen, wobei jedes Pixel eines kombinierten Bildes die Szene für eine Strahlpose darstellt und die Strahlposen für jedes kombinierte Bild mindestens zwei unterschiedliche Positionen einschließen; Bilddaten für einen Satz von Segmenten der Vielzahl von Quellbildern, wobei ein Segment für ein erstes Quellbild mindestens ein Pixel des ersten Quellbildes umfasst, für das ein Vorhersagequalitätsmaß für eine Vorhersage des Segments aus der Vielzahl von kombinierten Bildern unter einem Schwellenwert liegt; und Verarbeiten des Bildsignals.
  • Bildsignal, umfassend eine Vielzahl von kombinierten Bildern, wobei jedes kombinierte Bild Bilddaten darstellt, die aus einem Satz von mindestens zwei Quellbildern einer Vielzahl von Quellbildern abgeleitet sind, die eine Szene aus unterschiedlichen Betrachtungsposen darstellen, wobei jedes Pixel eines kombinierten Bildes die Szene für eine Strahlpose darstellt und die Strahlposen für jedes kombinierte Bild mindestens zwei unterschiedliche Positionen einschließen; Bilddaten für einen Satz von Segmenten der Vielzahl von Quellbildern, wobei ein Segment für ein erstes Quellbild mindestens ein Pixel des ersten Quellbildes umfasst, für das ein Vorhersagequalitätsmaß für eine Vorhersage des Segments aus der Vielzahl von kombinierten Bildern unter einem Schwellenwert liegt.
  • Für diese Ansätze können die Merkmale der Unteransprüche gelten.

Claims (18)

  1. Einrichtung zum Erzeugen eines Bildsignals, wobei die Einrichtung umfasst: einen Empfänger (401) zum Empfangen einer Vielzahl von Quellbildern, die eine Szene aus unterschiedlichen Betrachtungsposen darstellen, einen kombinierten Bildgenerator (403) zum Erzeugen einer Vielzahl von kombinierten Bildern aus den Quellbildern, wobei jedes kombinierte Bild aus einem Satz von mindestens zwei Quellbildern der Vielzahl von Quellbildern abgeleitet ist, wobei jedes Pixel eines kombinierten Bildes die Szene für eine Strahlpose darstellt und die Strahlposen für jedes kombinierte Bild mindestens zwei unterschiedliche Positionen einschließen, wobei eine Strahlpose für ein Pixel eine Pose für einen Strahl in einer Betrachtungsrichtung für das Pixel und von einer Betrachtungsposition für das Pixel darstellt, einen Auswerter (405) zum Bestimmen von Vorhersagequalitätsmaßen für Elemente der Vielzahl von Quellbildern, wobei ein Vorhersagequalitätsmaß für ein Element eines ersten Quellbildes eine Differenz zwischen Pixelwerten in dem ersten Quellbild für Pixel in dem Element und vorhergesagten Pixelwerten für Pixel in dem Element angibt, wobei die vorhergesagten Pixelwerte Pixelwerte sind, die aus der Vorhersage von Pixeln in dem Element aus der Vielzahl von kombinierten Bildern resultieren; einen Bestimmer (407) zum Bestimmen von Segmenten der Quellbilder, die Elemente umfassen, für die das Vorhersagequalitätsmaß eine Differenz über einem Schwellenwert angibt; und einen Bildsignalgenerator (409) zum Erzeugen eines Bildsignals, das Bilddaten, die kombinierten Bilder darstellen, und Bilddaten, die Segmente der Quellbilder darstellen, umfasst.
  2. Einrichtung nach Anspruch 1, wobei der kombinierte Bildgenerator (403) angeordnet ist, um mindestens ein erstes kombiniertes Bild der Vielzahl von kombinierten Bildern durch Betrachtungssynthese von Pixeln des ersten kombinierten Bildes aus der Vielzahl von Quellbildern zu erzeugen, wobei jedes Pixel des ersten kombinierten Bildes die Szene für eine Strahlpose darstellt und die Strahlposen für das erste Bild mindestens zwei unterschiedliche Positionen umfassen.
  3. Einrichtung nach Anspruch 2, wobei ein Skalarprodukt zwischen einem vertikalen Vektor und Pixelkreuzproduktvektoren für mindestens 90 % von Pixeln des ersten kombinierten Bildes nicht negativ ist, wobei ein Pixelkreuzproduktvektor für ein Pixel ein Kreuzprodukt zwischen einer Strahlrichtung für ein Pixel und einem Vektor von einem Mittelpunkt für die unterschiedlichen Betrachtungsposen zu einer Strahlposition für das Pixel ist.
  4. Einrichtung nach Anspruch 3, wobei der kombinierte Bildgenerator (403) angeordnet ist, um ein zweites kombiniertes Bild der Vielzahl von kombinierten Bildern durch Betrachtungssynthese von Pixeln des zweiten kombinierten Bildes aus der Vielzahl von Quellbildern zu erzeugen, wobei jedes Pixel des zweiten kombinierten Bildes die Szene für eine Strahlpose darstellt und die Strahlposen für das zweite Bild mindestens zwei unterschiedliche Positionen umfassen; und wobei ein Skalarprodukt zwischen dem vertikalen Vektor und Pixelkreuzproduktvektoren für mindestens 90 % von Pixeln des zweiten kombinierten Bildes nicht positiv ist.
  5. Einrichtung nach Anspruch 2, wobei die Strahlposen des ersten kombinierten Bildes so ausgewählt sind, dass sie proximal zu einer Grenze eines Bereichs sind, der die unterschiedlichen Betrachtungsposen der Vielzahl von Quellbildern umfasst.
  6. Einrichtung nach Anspruch 2 oder 3, wobei bestimmt wird, dass jede der Strahlposen des ersten kombinierten Bildes kleiner als ein erster Abstand von einer Grenze eines Bereichs ist, der die unterschiedlichen Betrachtungsposen der Vielzahl von Quellbildern umfasst, wobei der erste Abstand nicht mehr als 50 % eines maximalen inneren Abstands zwischen Punkten auf der Grenze beträgt.
  7. Einrichtung nach einem der vorhergehenden Ansprüche, wobei der kombinierte Bildgenerator (403) für jedes Pixel eines ersten kombinierten Bildes der Vielzahl von kombinierten Bildern angeordnet ist zum: Bestimmen eines entsprechenden Pixels in jedem der Betrachtungsquellbilder, für das ein entsprechendes Pixel vorhanden ist, wobei ein entsprechendes Pixel eines ist, das eine gleiche Strahlrichtung wie das Pixel des ersten kombinierten Bildes darstellt, Auswählen eines Pixelwertes für das Pixel des ersten kombinierten Bildes als einen Pixelwert des entsprechenden Pixels in dem Betrachtungsquellbild, für welches das entsprechende Pixel einen Strahl mit einem größten Abstand von einem Mittelpunkt für die unterschiedlichen Betrachtungsposen darstellt, wobei der größte Abstand in einer ersten Richtung entlang einer ersten Achse senkrecht zu einer Strahlrichtung für das entsprechende Pixel ist.
  8. Einrichtung nach Anspruch 7, wobei das Bestimmen der entsprechenden Pixel das Neuabtasten jedes Quellbildes zu einer Bilddarstellung, die mindestens einen Teil einer Oberfläche einer die Betrachtungsposen umgebenden Betrachtungskugel darstellt, und das Bestimmen entsprechender Pixel als Pixel mit einer gleichen Position in der Bilddarstellung umfasst.
  9. Einrichtung nach Anspruch 7 oder 8, wobei der kombinierte Bildgenerator (403) für jedes Pixel eines zweiten kombinierten Bildes angeordnet ist zum: Auswählen eines Pixelwertes für das Pixel in dem zweiten kombinierten Bild als einen Pixelwert des entsprechenden Pixels in dem Betrachtungsquellbild, für welches das entsprechende Pixel einen Strahl mit einem größten Abstand von dem Mittelpunkt in einer der ersten Richtung entgegengesetzten Richtung darstellt.
  10. Einrichtung nach einem der Ansprüche 7 bis 9, wobei der kombinierte Bildgenerator (403) angeordnet ist zum: für jedes Pixel eines dritten kombinierten Bildes: Auswählen eines Pixelwertes für das Pixel in dem dritten kombinierten Bild als einen Pixelwert des entsprechenden Pixels in dem Betrachtungsquellbild, für welches das entsprechende Pixel einen Strahl mit einem kleinsten Abstand von dem Mittelpunkt darstellt.
  11. Einrichtung nach einem der Ansprüche 7 bis 10, wobei der kombinierte Bildgenerator (403) angeordnet ist zum: für jedes Pixel in einem vierten kombinierten Bild: Auswählen eines Pixelwertes für das Pixel in dem vierten kombinierten Bild als einen Pixelwert des entsprechenden Pixels in dem Betrachtungsquellbild, für welches das entsprechende Pixel einen Strahl mit einem größten Abstand von dem Mittelpunkt in einer zweiten Richtung entlang einer zweiten Achse senkrecht zu einer Strahlrichtung für das entsprechende Pixel darstellt, wobei die erste Achse und die zweite Achse unterschiedliche Richtungen aufweisen.
  12. Einrichtung nach einem der Ansprüche 7 bis 11, wobei der kombinierte Bildgenerator (403) angeordnet ist zum Erzeugen von Ursprungsdaten für das erste kombinierte Bild, wobei die Ursprungsdaten angeben, welches der Quellbilder ein Ursprung für jedes Pixel des ersten kombinierten Bildes ist; und der Bildsignalgenerator (409) angeordnet ist zum Einschließen der Ursprungsdaten in das Bildsignal.
  13. Einrichtung nach einem der vorhergehenden Ansprüche, wobei der Bildsignalgenerator (403) angeordnet ist zum Aufnehmnen der Quellbetrachtungsposendaten in das Bildsignal, wobei die Quellbetrachtungsposendaten die unterschiedlichen Betrachtungsposen für die Quellbilder angeben.
  14. Einrichtung zum Empfangen eines Bildsignals, wobei die Einrichtung umfasst: einen Empfänger (501) zum Empfangen eines Bildsignals, wobei das Bildsignal umfasst: eine Vielzahl von kombinierten Bildern, wobei jedes kombinierte Bild Bilddaten darstellt, die aus einem Satz von mindestens zwei Quellbildern einer Vielzahl von Quellbildern abgeleitet sind, die eine Szene aus unterschiedlichen Betrachtungsposen darstellen, wobei jedes Pixel eines kombinierten Bildes die Szene für eine Strahlpose darstellt und die Strahlposen für jedes kombinierte Bild mindestens zwei unterschiedliche Positionen einschließen, wobei eine Strahlpose für ein Pixel eine Position für einen Strahl in einer Betrachtungsrichtung für das Pixel und von einer Betrachtungsposition für das Pixel darstellt; Bilddaten für einen Satz von Segmenten der Vielzahl von Quellbildern, wobei ein Segment für ein erstes Quellbild mindestens ein Pixel des ersten Quellbildes umfasst, für das ein Vorhersagequalitätsmaß für eine Vorhersage des Segments aus der Vielzahl von kombinierten Bildern unter einem Schwellenwert liegt; und einen Prozessor (503) zum Verarbeiten des Bildsignals.
  15. Verfahren zum Erzeugen eines Bildsignals, wobei das Verfahren umfasst: Empfangen einer Vielzahl von Quellbildern, die eine Szene aus unterschiedlichen Betrachtungsposen darstellen; Erzeugen einer Vielzahl von kombinierten Bildern aus den Quellbildern, wobei jedes kombinierte Bild aus einem Satz von mindestens zwei Quellbildern der Vielzahl von Quellbildern abgeleitet ist, wobei jedes Pixel eines kombinierten Bildes die Szene für eine Strahlpose darstellt und die Strahlposen für jedes kombinierte Bild mindestens zwei unterschiedliche Positionen einschließen, wobei eine Strahlpose für ein Pixel eine Pose für einen Strahl in einer Betrachtungsrichtung für das Pixel und von einer Betrachtungsposition für das Pixel darstellt; Bestimmen von Vorhersagequalitätsmaßen für Elemente der Vielzahl von Quellbildern, wobei ein Vorhersagequalitätsmaß für ein Element eines ersten Quellbildes eine Differenz zwischen Pixelwerten in dem ersten Quellbild für Pixel in dem Element und vorhergesagten Pixelwerten für Pixel in dem Element angibt, wobei die vorhergesagten Pixelwerte Pixelwerte sind, die aus der Vorhersage von Pixeln in dem Element aus der Vielzahl von kombinierten Bildern resultieren; Bestimmen von Segmenten der Quellbilder, die Elemente umfassen, für die das Vorhersagequalitätsmaß eine Differenz über einem Schwellenwert angibt, und Erzeugen eines Bildsignals, das Bilddaten, die kombinierten Bilder darstellen, und Bilddaten, die Segmente der Quellbilder darstellen, umfasst.
  16. Verfahren zum Verarbeiten eines Bildsignals, wobei das Verfahren umfasst: Empfangen eines Bildsignals, wobei das Bildsignal umfasst: eine Vielzahl von kombinierten Bildern, wobei jedes kombinierte Bild Bilddaten darstellt, die aus einem Satz von mindestens zwei Quellbildern einer Vielzahl von Quellbildern abgeleitet sind, die eine Szene aus unterschiedlichen Ansichtsposen darstellen, wobei jedes Pixel eines kombinierten Bildes die Szene für eine Strahlposition darstellt und die Strahlpositionen für jedes kombinierte Bild mindestens zwei unterschiedliche Positionen einschließen, wobei eine Strahlposition für ein Pixel eine Position für einen Strahl in einer Blickrichtung für das Pixel und von einer Blickposition für das Pixel darstellt; Bilddaten für einen Satz von Segmenten der Vielzahl von Quellbildern, wobei ein Segment für ein erstes Quellbild mindestens ein Pixel des ersten Quellbildes umfasst, für das ein Vorhersagequalitätsmaß für eine Vorhersage des Segments aus der Vielzahl von kombinierten Bildern unter einem Schwellenwert liegt; und Verarbeiten des Bildsignals.
  17. Bildsignal, umfassend eine Vielzahl von kombinierten Bildern, wobei jedes kombinierte Bild Bilddaten darstellt, die aus einem Satz von mindestens zwei Quellbildern einer Vielzahl von Quellbildern abgeleitet sind, die eine Szene aus unterschiedlichen Betrachtungsposen darstellen, wobei jedes Pixel eines kombinierten Bildes die Szene für eine Strahlpose darstellt und die Strahlposen für jedes kombinierte Bild mindestens zwei unterschiedliche Positionen einschließen, wobei eine Strahlpose für ein Pixel eine Pose für einen Strahl in einer Betrachtungsrichtung für das Pixel und von einer Betrachtungsposition für das Pixel darstellt; Bilddaten für einen Satz von Segmenten der Vielzahl von Quellbildern, wobei ein Segment für ein erstes Quellbild mindestens ein Pixel des ersten Quellbildes umfasst, für das ein Vorhersagequalitätsmaß für eine Vorhersage des Segments aus der Vielzahl von kombinierten Bildern unter einem Schwellenwert liegt.
  18. Computerprogrammprodukt, das Computerprogrammcodemittel umfasst, die ausgelegt sind, um alle Schritte der Ansprüche 15 oder 16 durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.
DE112020001322.7T 2019-03-19 2020-02-14 Eine szene darstellendes bildsignal Pending DE112020001322T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19163678.6A EP3712843A1 (de) 2019-03-19 2019-03-19 Bildsignal, das eine szene repräsentiert
EP19163678.6 2019-03-19
PCT/EP2020/053981 WO2020187506A1 (en) 2019-03-19 2020-02-14 Image signal representing a scene

Publications (1)

Publication Number Publication Date
DE112020001322T5 true DE112020001322T5 (de) 2021-12-30

Family

ID=65991512

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112020001322.7T Pending DE112020001322T5 (de) 2019-03-19 2020-02-14 Eine szene darstellendes bildsignal

Country Status (14)

Country Link
US (1) US20220174259A1 (de)
EP (2) EP3712843A1 (de)
JP (1) JP7462668B2 (de)
KR (1) KR20210141596A (de)
CN (1) CN113614776A (de)
BR (1) BR112021018301A2 (de)
CA (1) CA3133865A1 (de)
DE (1) DE112020001322T5 (de)
ES (1) ES2883750R1 (de)
GB (1) GB2596962B (de)
MX (1) MX2021011157A (de)
TW (1) TW202046716A (de)
WO (1) WO2020187506A1 (de)
ZA (1) ZA202107934B (de)

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8106924B2 (en) * 2008-07-31 2012-01-31 Stmicroelectronics S.R.L. Method and system for video rendering, computer program product therefor
CN101719264B (zh) * 2009-12-28 2012-05-23 清华大学 一种多视角动态场景采集的视觉场计算方法
JP2011233141A (ja) 2010-04-05 2011-11-17 Kddi Corp 自由視点画像伝送のためのサーバ装置、プログラム及び自由視点画像伝送方法
EP2765774A1 (de) * 2013-02-06 2014-08-13 Koninklijke Philips N.V. System zur Erzeugung eines Zwischenansichtsbildes
US9451162B2 (en) * 2013-08-21 2016-09-20 Jaunt Inc. Camera array including camera modules
JP6672075B2 (ja) * 2016-05-25 2020-03-25 キヤノン株式会社 制御装置、制御方法、及び、プログラム
JP6808357B2 (ja) * 2016-05-25 2021-01-06 キヤノン株式会社 情報処理装置、制御方法、及び、プログラム
CN106973281B (zh) * 2017-01-19 2018-12-07 宁波大学 一种虚拟视点视频质量预测方法
US11200675B2 (en) 2017-02-20 2021-12-14 Sony Corporation Image processing apparatus and image processing method
US10659773B2 (en) 2017-04-13 2020-05-19 Facebook, Inc. Panoramic camera systems
JP7042561B2 (ja) 2017-06-02 2022-03-28 キヤノン株式会社 情報処理装置、情報処理方法
EP3419286A1 (de) 2017-06-23 2018-12-26 Koninklijke Philips N.V. Verarbeitung von 3d-bildinformationen auf basis von texturkarten und netzen
EP3435670A1 (de) 2017-07-25 2019-01-30 Koninklijke Philips N.V. Vorrichtung und verfahren zur erzeugung einer unterteilten dreidimensionalen bilddarstellung einer szene
EP3441788A1 (de) * 2017-08-08 2019-02-13 Koninklijke Philips N.V. Vorrichtung und verfahren zur erzeugung einer darstellung einer szene
CN108600730B (zh) * 2018-03-26 2020-11-17 杭州同绘科技有限公司 一种基于合成图像质量度量的远程绘制方法

Also Published As

Publication number Publication date
JP2022525526A (ja) 2022-05-17
CN113614776A (zh) 2021-11-05
MX2021011157A (es) 2021-10-22
ES2883750R1 (es) 2023-03-21
EP3712843A1 (de) 2020-09-23
GB202114892D0 (en) 2021-12-01
GB2596962B (en) 2023-04-26
KR20210141596A (ko) 2021-11-23
US20220174259A1 (en) 2022-06-02
JP7462668B2 (ja) 2024-04-05
ES2883750A2 (es) 2021-12-09
ZA202107934B (en) 2024-04-24
TW202046716A (zh) 2020-12-16
GB2596962A (en) 2022-01-12
WO2020187506A1 (en) 2020-09-24
EP3942519A1 (de) 2022-01-26
BR112021018301A2 (pt) 2021-11-23
CA3133865A1 (en) 2020-09-24

Similar Documents

Publication Publication Date Title
DE112018000311T5 (de) Stereoskopisches Rendering unter Verwendung von Raymarching und ein Broadcaster für eine virtuelle Ansicht für solches Rendering
DE112017002851B4 (de) Verfahren und Vorrichtung einer Grenzauffüllung für eine VR-Videoverarbeitung
DE69932619T2 (de) Verfahren und system zum aufnehmen und repräsentieren von dreidimensionaler geometrie, farbe und schatten von animierten objekten
DE102020000810A1 (de) 3D-Objektrekonstruktion unter Nutzung einer fotometrischen Netzdarstellung
DE60115034T2 (de) Verfeinerung von dreidimensionalen polygonalen gitterdaten
EP3347876B1 (de) Vorrichtung und verfahren zur erzeugung eines modells von einem objekt mit überlagerungsbilddaten in einer virtuellen umgebung
DE102009041431B4 (de) Fahrsimulationsvorrichtung, Weitwinkelkamera-Videosimulationsvorrichtung und Bilddeformierungs-/-zusammensetzungsvorrichtung
EP3789962B1 (de) Verfahren und vorrichtung zum erzeugen von daten für eine zwei- oder dreidimen-sionale darstellung zumindest eines teils eines objekts und zum erzeugen der zwei- oder dreidimensionalen darstellung zumindest des teils des objekts
EP3427474B1 (de) Bildverarbeitungsverfahren, bildverarbeitungsmittel und bildverarbeitungsvorrichtung zur erzeugung von abbildungen eines teils eines dreidimensionalen raums
WO2008141596A1 (de) Verfahren zum darstellen von bildobjekten in einem virtuellen dreidimensionalen bildraum
DE102017203721A1 (de) Vorrichtung und Verfahren zur Darstellung eines Raumbilds von einem Objekt in einer virtuellen Umgebung
DE102010009291A1 (de) Verfahren und Vorrichtung für ein anatomie-adaptiertes pseudoholographisches Display
DE602004012341T2 (de) Verfahren und System zur Bereitstellung einer Volumendarstellung eines dreidimensionalen Objektes
CN112446939A (zh) 三维模型动态渲染方法、装置、电子设备及存储介质
DE102018130770A1 (de) Stereoskopische Wiedergabe von virtuellen 3D-Objekten
EP2528042A1 (de) Verfahren und Vorrichtung zum Re-Meshing von 3D-Polygonmodellen
DE10056978B4 (de) Verfahren zur Erzeugung eines stereographischen Bildes
DE102015223003A1 (de) Vorrichtung und Verfahren zur Überlagerung zumindest eines Teils eines Objekts mit einer virtuellen Oberfläche
WO2008025842A1 (de) Schnittstelle und schaltungsanordnung insbesondere für holografische kodiereinheiten oder holografische wiedergabeeinrichtungen
DE102004040372B4 (de) Verfahren und Vorrichtung zur Darstellung einer dreidimensionalen Topographie
DE112020001322T5 (de) Eine szene darstellendes bildsignal
WO2011032642A1 (de) Verfahren und vorrichtung zum erzeugen von teilansichten und/oder einer raumbildvorlage aus einer 2d-ansicht für eine stereoskopische wiedergabe
DE112021003549T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
EP2893510A1 (de) Verfahren und bildverarbeitungsanlage zum entfernen eines visuellen objektes aus einem bild
US11461968B2 (en) Method of inferring microdetail on skin animation

Legal Events

Date Code Title Description
R083 Amendment of/additions to inventor(s)