RU2817803C2 - Image signal representing scene - Google Patents

Image signal representing scene Download PDF

Info

Publication number
RU2817803C2
RU2817803C2 RU2021130328A RU2021130328A RU2817803C2 RU 2817803 C2 RU2817803 C2 RU 2817803C2 RU 2021130328 A RU2021130328 A RU 2021130328A RU 2021130328 A RU2021130328 A RU 2021130328A RU 2817803 C2 RU2817803 C2 RU 2817803C2
Authority
RU
Russia
Prior art keywords
image
images
pixel
fused
ray
Prior art date
Application number
RU2021130328A
Other languages
Russian (ru)
Other versions
RU2021130328A (en
Inventor
Бартоломеус Вильгельмус Дамианус ВАН ГЕСТ
Барт КРОН
Original Assignee
Конинклейке Филипс Н.В.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Конинклейке Филипс Н.В. filed Critical Конинклейке Филипс Н.В.
Publication of RU2021130328A publication Critical patent/RU2021130328A/en
Application granted granted Critical
Publication of RU2817803C2 publication Critical patent/RU2817803C2/en

Links

Abstract

FIELD: imaging devices.
SUBSTANCE: invention relates to an apparatus and methods for generating an image signal. Method comprises receiving a plurality of source images representing a scene from different viewing positions, wherein the viewing posture comprises a viewing position and a viewing direction; formation of multiple combined images from source images, wherein each combined image is obtained from a set of at least two source images of a plurality of source images, each corresponding pixel of the merged image represents a scene property at the point of intersection of the corresponding beam with the scene, wherein the beam has an onset position and a direction which together define a beam position, and wherein each combined image includes at least two different pixels representing beam poses for different corresponding beam pose start positions; determination of prediction quality measures for elements of a plurality of source images, wherein the prediction quality measure for the element of the first source image indicates the difference between the pixel values in the element and the predicted pixel values in the element, and the predicted pixel values are pixel values obtained by predicting pixel values in an element based on a plurality of combined images; determining segments of source images containing elements for which the prediction quality measure indicates a difference above a threshold value; and generating an image signal containing image data, representing combined images, and image data representing segments of original images.
EFFECT: high rate of data transmission owing to formation of merged images.
16 cl, 13 dwg

Description

ОБЛАСТЬ ТЕХНИКИTECHNICAL FIELD

Настоящее изобретение относится к сигналу изображения, представляющему сцену, и, в частности, но не исключительно, к формированию сигнала изображения, представляющего сцену, и рендерингу изображений из этого сигнала изображения как части приложения виртуальной реальности.The present invention relates to an image signal representing a scene, and particularly, but not exclusively, to generating an image signal representing a scene and rendering images from that image signal as part of a virtual reality application.

УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE ART

Благодаря непрерывному развитию и введению новых услуг и способов использования и потребления видео в последние годы произошел значительный рост разнообразия и диапазона приложений для изображений и видео.With the continuous development and introduction of new services and ways of using and consuming video, recent years have seen a significant increase in the variety and range of image and video applications.

Например, одной из набирающих все большую популярность услуг является предоставление последовательностей изображений таким образом, чтобы зритель мог активно и динамически взаимодействовать с системой для изменения параметров рендеринга.For example, one increasingly popular service is to provide image sequences so that the viewer can actively and dynamically interact with the system to change rendering parameters.

Весьма привлекательной особенностью многих приложений является возможность изменения эффективного положения обзора и направления обзора зрителя, чтобы, например, зритель мог перемещаться и «осматриваться» в представляемой сцене.A very attractive feature of many applications is the ability to change the viewer's effective viewing position and viewing direction so that, for example, the viewer can move and "look around" the scene being presented.

Такая функция может, в частности, давать пользователю ощущение виртуальной реальности.Such a feature may, in particular, provide the user with a virtual reality experience.

Благодаря этому пользователь может, например, (относительно) свободно передвигаться в виртуальной среде и динамически изменять свое положение и направление, в котором он смотрит.Thanks to this, the user can, for example, move (relatively) freely in the virtual environment and dynamically change his position and the direction in which he is looking.

Как правило, такие приложения виртуальной реальности основаны на трехмерной модели сцены, причем модель динамически оценивается для обеспечения конкретного запрошенного вида.Typically, such virtual reality applications are based on a 3D model of the scene, with the model dynamically evaluated to provide the specific view requested.

Данный подход хорошо известен, например, из игровых приложений для компьютеров и консолей, например, из категории игр-стрелялок от первого лица.This approach is well known, for example, from gaming applications for computers and consoles, for example, from the category of first-person shooting games.

Также желательно, в частности, для приложений виртуальной реальности, чтобы представляемое изображение было трехмерным изображением.It is also desirable, particularly for virtual reality applications, that the image being presented is a three-dimensional image.

Действительно, для оптимизации погружения зрителя, как правило, предпочтительно, чтобы пользователь ощущал представленную сцену как трехмерную сцену.Indeed, to optimize viewer immersion, it is generally preferable for the user to experience the presented scene as a 3D scene.

Ведь ощущение виртуальной реальности предпочтительно должно позволять пользователю выбирать свое собственное положение, точку обзора камеры и момент времени относительно виртуального мира.After all, the experience of virtual reality should preferably allow the user to choose his own position, camera viewpoint and point in time relative to the virtual world.

Как правило, приложения виртуальной реальности по своей природе ограничены тем, что они основаны на заранее определенной модели сцены и обычно на искусственной модели виртуального мира.Typically, virtual reality applications are inherently limited in that they are based on a predefined model of the scene and usually an artificial model of the virtual world.

Часто желательно, чтобы ощущение виртуальной реальности могло быть обеспечено на основе захвата реального мира.It is often desirable that a virtual reality experience can be provided by capturing the real world.

Однако во многих случаях такой подход ограничен или, как правило, требует построения виртуальной модели реального мира из захватываемых данных реального мира.However, in many cases this approach is limited or typically requires building a virtual model of the real world from the captured real world data.

В таком случае ощущение виртуальной реальности формируется путем оценки этой модели.In this case, the feeling of virtual reality is formed by evaluating this model.

Однако современные подходы, как правило, неоптимальные и часто имеют тенденцию предъявлять высокие требования к вычислительным и коммуникационным ресурсам и/или обеспечивать неоптимальное восприятие пользователем, например из-за пониженного качества или ограниченной свободы.However, current approaches are generally suboptimal and often tend to place high demands on computing and communication resources and/or provide a suboptimal user experience, for example due to reduced quality or limited freedom.

Во многих системах, например, в частности, основанных на сцене реального мира, предоставляют представление изображения сцены, где представление изображения включает в себя изображения и глубину для одной или более точек захвата/точек обзора в сцене.In many systems, for example, particularly those based on a real world scene, an image representation of the scene is provided, where the image representation includes images and depth for one or more capture points/viewpoints in the scene.

Представление изображение плюс глубина обеспечивает очень эффективное охарактеризование, особенно сцены реального мира, причем это охарактеризование не только довольно просто формируется путем захвата сцены реального мира, но и очень подходит для рендерера, синтезирующего виды для других точек обзора, отличных от используемых при захвате.The image-plus-depth view provides very efficient characterization, especially of real-world scenes, and this characterization is not only quite easily formed by capturing a real-world scene, but is also very suitable for a renderer synthesizing views for viewpoints other than those used in the capture.

Например, рендерер может быть выполнен с возможностью динамического формирования видов, которые соответствуют текущей локальной позе зрителя.For example, the renderer may be configured to dynamically generate views that correspond to the viewer's current local pose.

Например, позу зрителя можно определять динамически, а виды формировать динамически в соответствии с этой позой зрителя на основе предоставляемых изображений и, например карт глубины.For example, the viewer's pose can be determined dynamically, and views can be dynamically generated according to that viewer's pose based on provided images and, for example, depth maps.

Однако такие представления изображения обычно приводят к очень высокой скорости передачи данных для данного качества изображения.However, such image representations typically result in very high data rates for a given image quality.

Чтобы обеспечить хороший захват сцены и, в частности, решить проблему явления заслонения, сцену желательно захватывать из положений захвата, близких друг к другу и покрывающих большой диапазон положений.To ensure good scene capture and in particular to solve the problem of occlusion phenomenon, it is desirable to capture the scene from capture positions close to each other and covering a large range of positions.

Соответственно, требуется относительно большое количество изображений.Accordingly, a relatively large number of images are required.

Кроме того, окна просмотра захвата для камер часто перекрываются и, следовательно, набор изображений обычно содержит большое количество избыточной информации.In addition, the capture viewports of the cameras often overlap and, therefore, the image set usually contains a large amount of redundant information.

Как правило, эти проблемы не зависят от конкретной конфигурации захвата и, в частности, от того, используются ли линейные или, например, круговые, конфигурации захвата.Typically, these problems are independent of the specific gripper configuration and, in particular, whether linear or, for example, circular gripper configurations are used.

Таким образом, в то время как многие из обычных представлений и форматов изображения могут обеспечивать хорошие рабочие характеристики во многих приложениях и услугах, они имеют тенденцию быть неоптимальными по меньшей мере в некоторых обстоятельствах.Thus, while many of the conventional presentations and image formats may provide good performance in many applications and services, they tend to be suboptimal in at least some circumstances.

Следовательно, был бы полезен усовершенствованный подход к обработке и формированию сигнала изображения, содержащего представление изображения сцены.Therefore, an improved approach to processing and generating an image signal containing a scene image representation would be useful.

В частности, были бы полезны система и/или подход, которые позволяют улучшить работу, повысить гибкость, улучшить восприятие виртуальной реальности, уменьшить скорости передачи данных, повысить эффективность, облегчить распространение, снизить сложность, облегчить реализацию, снизить требования к хранению, повысить качество изображения, улучшить рендеринг, улучшить восприятие пользователем, улучшить компромисс между качеством изображения и скоростью передачи данных и/или улучшить рабочие характеристики и/или работу.In particular, a system and/or approach that would improve performance, increase flexibility, improve the virtual reality experience, reduce data rates, increase efficiency, facilitate distribution, reduce complexity, facilitate implementation, reduce storage requirements, improve image quality would be beneficial , improve rendering, improve user experience, improve the trade-off between image quality and bit rate, and/or improve performance and/or operation.

РАСКРЫТИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯDISCLOSURE OF THE INVENTION

Соответственно, настоящее изобретение направлено на предпочтительно ослабление, смягчение или устранение одного или более из вышеупомянутых недостатков по отдельности или в любой комбинации.Accordingly, the present invention is directed to preferably attenuating, mitigating or eliminating one or more of the above-mentioned disadvantages, individually or in any combination.

В соответствии с аспектом настоящего изобретения предложено устройство для формирования сигнала изображения, содержащее: приемник для приема множества исходных изображений, представляющих сцену из различных поз обзора; генератор объединенных изображений для формирования множества объединенных изображений из исходных изображений, причем каждое объединенное изображение получают из набора по меньшей мере из двух исходных изображений множества исходных изображений, каждый пиксель объединенного изображения представляет сцену для позы луча, а позы луча для каждого объединенного изображения включают в себя по меньшей мере два различных положения, при этом поза луча для пикселя представляет позу для луча в направлении обзора для пикселя и из положения обзора для пикселя; средство оценки для определения мер качества прогнозирования для элементов множества исходных изображений, причем мера качества прогнозирования для элемента первого исходного изображения указывает разницу между значениями пикселя в первом исходном изображении для пикселей в элементе и прогнозируемыми значениями пикселя для пикселей в элементе, а прогнозируемые значения пикселя являются значениями пикселя, полученными в результате прогнозирования пикселей в элементе из множества объединенных изображений; определитель для определения сегментов исходных изображений, содержащих элементы, для которых мера качества прогнозирования указывает на разницу выше порогового значения; и генератор сигнала изображения для формирования сигнала изображения, содержащего данные изображения, представляющие объединенные изображения, и данные изображения, представляющие сегменты исходных изображений.According to an aspect of the present invention, there is provided an apparatus for generating an image signal, comprising: a receiver for receiving a plurality of source images representing a scene from various viewing poses; a fused image generator for generating a plurality of fused images from the source images, wherein each fused image is obtained from a set of at least two source images of the plurality of source images, each pixel of the fused image represents a scene for a ray pose, and the ray poses for each fused image include at least two different positions, wherein the beam pose for the pixel represents the pose for the beam in the viewing direction for the pixel and from the viewing position for the pixel; evaluation means for determining prediction quality measures for elements of the plurality of source images, wherein the prediction quality measure for an element of the first source image indicates a difference between pixel values in the first source image for pixels in the element and predicted pixel values for pixels in the element, and the predicted pixel values are values pixels obtained by predicting pixels in an element from a plurality of merged images; a qualifier for identifying segments of source images containing elements for which the prediction quality measure indicates a difference above a threshold value; and an image signal generator for generating an image signal containing image data representing the merged images and image data representing segments of the original images.

Изобретение может обеспечить улучшенное представление сцены и может обеспечить улучшенное качество изображения преобразованных для воспроизведения изображений в зависимости от скорости передачи данных сигнала изображения во многих вариантах изображения и сценариях.The invention can provide improved scene representation and can provide improved image quality of rendered images depending on the data rate of the image signal in many image variations and scenarios.

Во многих вариантах реализации может быть обеспечено более эффективное представление сцены, например, позволяющее достигать заданного качества при снижении скорости передачи данных.In many embodiments, a more efficient scene presentation can be provided, for example, allowing a given quality to be achieved at a reduced data rate.

Данный подход может обеспечить более гибкий и эффективный подход к рендерингу изображений сцены и может позволить улучшить адаптацию, например, к свойствам сцены.This approach may provide a more flexible and efficient approach to rendering scene images and may allow better adaptation to, for example, scene properties.

Этот подход может во многих вариантах реализации использовать представление изображения сцены, пригодное для гибкого, эффективного и высокопроизводительного приложения виртуальной реальности (VR).This approach can, in many embodiments, utilize a scene image representation suitable for a flexible, efficient, and high-performance virtual reality (VR) application.

Во многих вариантах реализации он может сделать возможным или обеспечить приложение виртуальной реальности с существенно улучшенным компромиссом между качеством изображения и скоростью передачи данных.In many implementations, it can enable or provide a virtual reality application with a substantially improved trade-off between image quality and data rate.

Во многих вариантах реализации это может позволить улучшить воспринимаемое качество изображения и/или уменьшить скорость передачи данных.In many implementations, this may improve the perceived image quality and/or reduce the data transfer rate.

Данный подход может быть пригодным, например, для широковещательных служб видео, поддерживающих адаптацию к перемещению и повороту головы на приемном конце.This approach may be suitable, for example, for broadcast video services that support movement and head rotation adaptation at the receiving end.

Исходные изображения могут быть, в частности, светоинтенсивными изображениями со связанной информацией о глубине, такой как карты глубины.The source images may be, in particular, light-intensive images with associated depth information, such as depth maps.

Данный подход может, в частности, позволить оптимизировать объединенные изображения соответственно для информации переднего плана и заднего плана с помощью сегментов, обеспечивающих дополнительные данные там, где это особенно уместно.This approach may, in particular, allow fusion images to be optimized for foreground and background information respectively, with segments providing additional data where particularly relevant.

Генератор сигнала изображения может быть выполнен с возможностью использования более эффективного кодирования объединенных изображений, чем сегментов.The image signal generator may be configured to use more efficient coding of concatenated images than segments.

Однако, сегменты могут, как правило, представлять относительно малую долю данных объединенных изображений.However, segments may typically represent a relatively small fraction of the fused image data.

В соответствии с необязательным признаком настоящего изобретения генератор объединенных изображений выполнен с возможностью формирования по меньшей мере первого объединенного изображения множества объединенных изображений посредством синтеза вида пикселей первого объединенного изображения из множества исходных изображений, причем каждый пиксель первого объединенного изображения представляет сцену для позы луча, а позы луча для первого изображения включают в себя по меньшей мере два различных положения.In accordance with an optional feature of the present invention, the fused image generator is configured to generate at least a first fused image of a plurality of fused images by synthesizing the appearance of pixels of the first fused image from the plurality of source images, wherein each pixel of the first fused image represents a scene for a ray pose, and the ray pose for the first image include at least two different positions.

Это может обеспечить особенно эффективную работу во многих вариантах реализации и может, например, позволить формировать объединенные изображения для поз обзора, которые могут (обычно в сочетании) обеспечить особенно эффективное представление сцены.This may provide particularly effective performance in many implementations and may, for example, allow the generation of fused images for viewing poses that can (usually in combination) provide a particularly effective representation of the scene.

В соответствии с необязательным признаком настоящего изобретения скалярное произведение между вертикальным вектором и векторами перекрестного произведения пикселя является неотрицательным по меньшей мере для 90% пикселей первого объединенного изображения, причем вектор перекрестного произведения пикселя для пикселя является перекрестным произведением между направлением луча для пикселя и вектором из центральной точки для различных поз обзора в положение луча для пикселя.In accordance with an optional feature of the present invention, the dot product between the vertical vector and the pixel cross product vectors is non-negative for at least 90% of the pixels of the first merged image, wherein the pixel cross product vector for the pixel is the cross product between the ray direction for the pixel and the vector from the center point for different viewing poses to the beam position per pixel.

Это может обеспечить особенно эффективное и выгодное формирование объединенных изображений во многих вариантах реализации.This can provide particularly efficient and advantageous generation of fused images in many embodiments.

Это может, в частности, обеспечить подход низкой сложности к определению объединенного изображения, который обеспечивает эффективное представление данных заднего плана за счет тенденции обеспечивать вид, смещенный к виду вбок.This may in particular provide a low complexity approach to defining a fused image that provides efficient representation of background data at the expense of the tendency to provide a side-biased view.

В соответствии с необязательным признаком настоящего изобретения генератор объединенных изображений выполнен с возможностью формирования второго объединенного изображения множества объединенных изображений посредством синтеза вида пикселей второго объединенного изображения из множества исходных изображений, причем каждый пиксель второго объединенного изображения представляет сцену для позы луча, а позы луча для первого изображения включают в себя по меньшей мере два различных положения; и при этом скалярное произведение между вертикальным вектором и векторам перекрестного произведения пикселя является неположительными по меньшей мере для 90% пикселей второго объединенного изображения.In accordance with an optional feature of the present invention, the fused image generator is configured to generate a second fused image of the plurality of fused images by synthesizing the pixel appearance of the second fused image from the plurality of source images, wherein each pixel of the second fused image represents a scene for a ray pose and a ray pose for the first image include at least two different provisions; and wherein the dot product between the vertical vector and the pixel cross product vectors is non-positive for at least 90% of the pixels of the second merged image.

Это может обеспечить особенно эффективное и выгодное формирование объединенных изображений во многих вариантах реализации.This can provide particularly efficient and advantageous generation of fused images in many embodiments.

Это может, в частности, обеспечить подход низкой сложности к определению объединенного изображения, который обеспечивает эффективное представление данных заднего плана за счет тенденции обеспечивать видов, смещенный к другим видам вбок.This may in particular provide a low complexity approach to defining a fused image that provides efficient representation of background data at the cost of tending to provide views offset to other views laterally.

В соответствии с необязательным признаком настоящего изобретения позы луча первого объединенного изображения выбирают так, чтобы они были близкими к границе области, содержащей различные позы обзора множества исходных изображений.In accordance with an optional feature of the present invention, the ray poses of the first fused image are selected to be close to the boundary of a region containing different viewing poses of the plurality of source images.

Это может обеспечить эффективную работу во многих вариантах реализации и может, например, обеспечить улучшенную информацию о заднем плане посредством сигнала изображения, тем самым облегчая и/или улучшая синтез вида на основе сигнала изображения.This may work effectively in many embodiments and may, for example, provide improved background information via the image signal, thereby facilitating and/or improving view synthesis from the image signal.

В соответствии с необязательным признаком настоящего изобретения каждую из поз луча первого объединенного изображения определяют на расстоянии меньше первого расстояния от границы области, содержащей различные позы обзора множества исходных изображений, причем первое расстояние составляет не более 50% от максимального внутреннего расстояния между точками на границе.In accordance with an optional feature of the present invention, each of the ray poses of the first merged image is determined to be less than a first distance from the boundary of a region containing different viewing poses of a plurality of source images, the first distance being no more than 50% of the maximum internal distance between points on the boundary.

Это может обеспечить эффективную работу во многих вариантах реализации и может, например, обеспечить улучшенную информацию о заднем плане посредством сигнала изображения, тем самым облегчая и/или улучшая синтез вида на основе сигнала изображения.This may work effectively in many embodiments and may, for example, provide improved background information via the image signal, thereby facilitating and/or improving view synthesis from the image signal.

В некоторых вариантах реализации первое расстояние составляет не более 25% или 10% от максимального внутреннего расстояния.In some embodiments, the first distance is no more than 25% or 10% of the maximum internal distance.

В некоторых вариантах реализации по меньшей мере одну позу обзора объединенного изображения определяют на расстоянии меньше первого расстояния от границы области, содержащей различные позы обзора множества исходных изображений, причем первое расстояние составляет не более 20%, 10% или даже 5% от максимального расстояния между двумя позами обзора из различных поз обзора.In some embodiments, at least one viewing pose of the fused image is defined at a distance less than a first distance from the boundary of a region containing different viewing poses of a plurality of source images, wherein the first distance is no more than 20%, 10%, or even 5% of the maximum distance between the two viewing poses from various viewing positions.

В некоторых вариантах реализации по меньшей мере одну позу обзора объединенных изображений определяют как находящуюся по меньшей мере на минимальном расстоянии от центральной точки различных поз обзора, причем минимальное расстояние составляет по меньшей мере 50%, 75% или даже 90% от расстояния от центральной точки до границы области, содержащей различные позы обзора множества исходных изображений, вдоль линии через центральную точку и по меньшей мере одну позу обзора.In some embodiments, at least one viewing pose of the fused images is determined to be at least a minimum distance from the center point of the various viewing poses, wherein the minimum distance is at least 50%, 75%, or even 90% of the distance from the center point to boundaries of a region containing various viewing poses of the plurality of source images along a line through a center point and at least one viewing pose.

В соответствии с необязательным признаком настоящего изобретения генератор объединенных изображений выполнен с возможностью для каждого пикселя первого объединенного изображения множества объединенных изображений: определения соответствующего пикселя в каждом из исходных изображений вида, для которых соответствующий пиксель присутствует, причем соответствующий пиксель является пикселем, который представляет то же самое направление луча, что и пиксель первого комбинированного изображения; выбора значения пикселя для пикселя первого комбинированного изображения в качестве значения пикселя соответствующего пикселя в исходном изображении вида, для которого соответствующий пиксель представляет луч, имеющий наибольшее расстояние от центральной точки для различных поз обзора, причем это наибольшее расстояние определяют в первом направлении вдоль первой оси, перпендикулярной направлению луча для соответствующего пикселя.In accordance with an optional feature of the present invention, the fused image generator is configured, for each pixel of a first fused image of the plurality of fused images: to determine a corresponding pixel in each of the source images of the view for which the corresponding pixel is present, wherein the corresponding pixel is a pixel that represents the same the ray direction is the same as the pixel of the first combined image; selecting a pixel value for a pixel of the first composite image as the pixel value of a corresponding pixel in the original image of the view for which the corresponding pixel represents a ray having a greatest distance from a center point for various viewing poses, wherein the greatest distance is determined in a first direction along a first axis perpendicular to beam direction for the corresponding pixel.

Это может обеспечить особенно эффективное и выгодное формирование объединенных изображений во многих вариантах реализации.This can provide particularly efficient and advantageous generation of fused images in many embodiments.

Это может, в частности, обеспечить подход низкой сложности к определению объединенного изображения, который обеспечивает эффективное представление данных заднего плана за счет тенденции обеспечивать вид, смещенный к виду вбок.This may in particular provide a low complexity approach to defining a fused image that provides efficient representation of background data at the expense of the tendency to provide a side-biased view.

В соответствии с необязательным признаком настоящего изобретения определение соответствующих пикселей включает повторную дискретизацию каждого исходного изображения в представление изображения, представляющее по меньшей мере часть поверхности сферы обзора, окружающей позы обзора, и определение соответствующих пикселей как пикселей, имеющих то же самое положение в представлении изображения.In accordance with an optional feature of the present invention, determining the corresponding pixels includes resampling each source image into an image representation representing at least a portion of the surface of a viewing sphere surrounding the viewing poses, and defining the corresponding pixels as pixels having the same position in the image representation.

Это может обеспечить особенно эффективное и точное определение соответствующих пикселей.This can provide particularly efficient and accurate detection of the corresponding pixels.

Поверхность сферы обзора может быть, например, представлена равнопрямоугольным представлением или представлением в виде кубической карты.The viewing sphere surface may, for example, be represented by an equirectangular representation or a cube map representation.

Каждый луч сферы обзора может иметь направление луча, а повторная дискретизация исходного изображения может включать установку значения пикселя сферы обзора на значение пикселя исходного изображения с тем же самым направлением луча.Each ray of the viewing sphere may have a ray direction, and resampling the original image may involve setting the pixel value of the viewing sphere to the pixel value of the original image with the same ray direction.

В соответствии с необязательным признаком настоящего изобретения генератор объединенных изображений выполнен с возможностью для каждого пикселя второго объединенного изображения: выбора значения пикселя для пикселя во втором объединенном изображении в качестве значения пикселя соответствующего пикселя в исходном изображении вида, для которого соответствующий пиксель представляет луч, имеющий наибольшее расстояние от центральной точки в направлении, противоположном первому направлению.In accordance with an optional feature of the present invention, the fused image generator is configured to, for each pixel of the second fused image: select a pixel value for a pixel in the second fused image as the pixel value of a corresponding pixel in the original image of the view for which the corresponding pixel represents a ray having the greatest distance from the center point in the opposite direction to the first direction.

Это может обеспечить особенно эффективное и выгодное формирование объединенных изображений во многих вариантах реализации.This can provide particularly efficient and advantageous generation of fused images in many embodiments.

Это может, в частности, обеспечить подход низкой сложности к определению объединенного изображения, который обеспечивает эффективное представление данных заднего плана за счет тенденции обеспечивать вид, смещенный к виду вбок.This may in particular provide a low complexity approach to defining a fused image that provides efficient representation of background data at the expense of the tendency to provide a side-biased view.

Кроме того, второе объединенное изображение может дополнять первое объединенное изображение за счет обеспечения видов вбок из противоположного направления, тем самым объединяясь с первым объединенным изображением для обеспечения особенно эффективного представления сцены и, в частности, информации о заднем плане.In addition, the second fused image may complement the first fused image by providing side views from an opposite direction, thereby combining with the first fused image to provide a particularly effective representation of the scene and, in particular, background information.

В соответствии с необязательным признаком настоящего изобретения генератор объединенных изображений выполнен с возможностью для каждого пикселя третьего объединенного изображения: выбора значения пикселя для пикселя в третьем объединенном изображении в качестве значения пикселя соответствующего пикселя на исходном изображении вида, для которого соответствующий пиксель представляет луч, имеющий наименьшее расстояние от центральной точки.In accordance with an optional feature of the present invention, the fused image generator is configured, for each pixel of the third fused image: to select a pixel value for a pixel in the third fused image as the pixel value of a corresponding pixel in the original image of the view for which the corresponding pixel represents a ray having the shortest distance from the center point.

Это может обеспечить особенно эффективное и выгодное формирование объединенных изображений во многих вариантах реализации.This can provide particularly efficient and advantageous generation of fused images in many embodiments.

Третье объединенное изображение может дополнять первое (и второе) объединенное изображение (изображения) за счет обеспечения более фронтального вида сцены, который может обеспечивать улучшенное представление объектов переднего плана в сцене.The third fused image may complement the first (and second) fused image(s) by providing a more frontal view of the scene, which may provide an improved view of foreground objects in the scene.

В соответствии с необязательным признаком настоящего изобретения генератор объединенных изображений выполнен с возможностью для каждого пикселя четвертого объединенного изображения: выбора значения пикселя для пикселя в четвертом объединенном изображении в качестве значения пикселя соответствующего пикселя в исходном изображении вида, для которого соответствующий пиксель представляет луч, имеющий наибольшее расстояние от центральной точки во втором направлении вдоль второй оси, перпендикулярной направлению луча для соответствующего пикселя, причем первая ось и вторая ось имеют разные направления.In accordance with an optional feature of the present invention, the fused image generator is configured, for each pixel of the fourth fused image: to select a pixel value for a pixel in the fourth fused image as the pixel value of a corresponding pixel in the original image of the view for which the corresponding pixel represents a ray having the greatest distance from the center point in a second direction along a second axis perpendicular to the ray direction for the corresponding pixel, the first axis and the second axis having different directions.

Это может обеспечить особенно эффективное и выгодное формирование объединенных изображений во многих вариантах реализации и может обеспечить улучшенное представление сцены.This can provide particularly efficient and advantageous generation of fused images in many embodiments and can provide improved scene representation.

В соответствии с необязательным признаком настоящего изобретения генератор объединенных изображений выполнен с возможностью формирования данных о происхождении для первого объединенного изображения, причем данные о происхождении указывают, какое из объединенных изображений является источником для каждого пикселя первого объединенного изображения; а генератор сигнала изображения выполнен с возможностью включения данных о происхождении в сигнал изображения.In accordance with an optional feature of the present invention, the fused image generator is configured to generate provenance data for the first fused image, wherein the provenance data indicates which of the fused images is the source for each pixel of the first fused image; and the image signal generator is configured to include origin data in the image signal.

Это может обеспечить особенно эффективную работу во многих вариантах реализации.This may provide particularly efficient operation in many implementations.

В соответствии с необязательным признаком настоящего изобретения генератор сигнала изображения выполнен с возможностью включения данных исходных поз обзора в сигнал изображения, причем данные исходных поз обзора указывают различные позы обзора для исходных изображений.According to an optional feature of the present invention, the image signal generator is configured to include source viewing pose data in the image signal, wherein the source viewing pose data indicates different viewing poses for the source images.

Это может обеспечить особенно эффективную работу во многих вариантах реализации.This may provide particularly efficient operation in many implementations.

В соответствии с аспектом настоящего изобретения предложено устройство для приема сигнала изображения, содержащее: приемник для приема сигнала изображения, при этом сигнал изображения содержит: множество объединенных изображений, причем каждое объединенное изображение представляет данные изображения, полученные из набора по меньшей мере из двух исходных изображений множества исходных изображений, представляющих сцену из различных поз обзора, каждый пиксель объединенного изображения представляет сцену для позы луча, а позы луча для каждого объединенного изображения включают в себя по меньшей мере два разных положения, причем поза луча для пикселя представляет позу для луча в направлении обзора для пикселя и из положения обзора для пикселя; данные изображения для набора сегментов множества исходных изображений, причем сегмент для первого исходного изображения содержит по меньшей мере один пиксель первого исходного изображения, для которого мера качества прогнозирования для прогнозирования сегмента из множества объединенных изображений ниже порогового значения; и процессор для обработки сигнала изображения.According to an aspect of the present invention, there is provided an apparatus for receiving an image signal, comprising: a receiver for receiving an image signal, wherein the image signal comprises: a plurality of merged images, each merged image representing image data obtained from a set of at least two original images of the plurality source images representing the scene from different viewing poses, each pixel of the fused image represents the scene for a ray pose, and the ray poses for each fused image include at least two different positions, wherein the ray pose for a pixel represents the pose for a ray in the viewing direction for pixel and from the viewing position for the pixel; image data for a set of segments of a plurality of source images, wherein the segment for the first source image contains at least one pixel of the first source image for which a prediction quality measure for predicting the segment from the plurality of merged images is below a threshold value; and a processor for processing the image signal.

В соответствии с аспектом настоящего изобретения предложен способ формирования сигнала изображения, включающий: прием множества исходных изображений, представляющих сцену из различных поз обзора; формирование множества объединенных изображений из исходных изображений, причем каждое объединенное изображение получают из набора по меньшей мере из двух исходных изображений множества исходных изображений, каждый пиксель объединенного изображения представляет сцену для позы луча, а позы луча для каждого объединенного изображения включают в себя по меньшей мере два различных положения, при этом поза луча для пикселя представляет позу для луча в направлении обзора для пикселя и из положения обзора для пикселя; определение мер качества прогнозирования для элементов множества исходных изображений, причем мера качества прогнозирования для элемента первого исходного изображения указывает разницу между значениями пикселя в первом исходном изображении для пикселей в элементе и прогнозируемыми значениями пикселя для пикселей в элементе, а прогнозируемые значения пикселя являются значениями пикселя, полученными в результате прогнозирования пикселей в элементе из множества объединенных изображений; определение сегментов исходных изображений, содержащих элементы, для которых мера качества прогнозирования указывает на разницу выше порогового значения; и формирование сигнала изображения, содержащего данные изображения, представляющие объединенных изображения, и данные изображения, представляющие сегменты исходных изображений.In accordance with an aspect of the present invention, there is provided a method for generating an image signal, including: receiving a plurality of source images representing a scene from various viewing poses; generating a plurality of fused images from the source images, wherein each fused image is derived from a set of at least two source images of the plurality of source images, each pixel of the fused image represents a scene for a ray pose, and the ray poses for each fused image include at least two different positions, wherein a beam pose for a pixel represents a beam pose in a viewing direction for a pixel and from a viewing position for a pixel; determining prediction quality measures for elements of the plurality of source images, wherein the prediction quality measure for an element of the first source image indicates the difference between pixel values in the first source image for pixels in the element and predicted pixel values for pixels in the element, and the predicted pixel values are the pixel values obtained by predicting pixels in an element from the plurality of merged images; identifying segments of source images containing elements for which the prediction quality measure indicates a difference above a threshold value; and generating an image signal containing image data representing the merged images and image data representing segments of the original images.

В соответствии с аспектом настоящего изобретения предложен способ приема сигнала изображения, включающий: прием сигнала изображения, при этом сигнал изображения содержит: множество объединенных изображений, причем каждое объединенное изображение представляет данные изображения, полученные из набора по меньшей мере из двух исходных изображений множества исходных изображений, представляющих сцену из различных поз обзора, каждый пиксель объединенного изображения представляет сцену для позы луча, а позы луча для каждого объединенного изображения включают в себя по меньшей мере два разных положения, причем поза луча для пикселя представляет позу для луча в направлении обзора для пикселя и из положения обзора для пикселя; данные изображения для набора сегментов множества исходных изображений, причем сегмент для первого исходного изображения содержит по меньшей мере один пиксель первого исходного изображения, для которого мера качества прогнозирования для прогнозирования сегмента из множества объединенных изображений ниже порогового значения; и обработку сигнала изображения.According to an aspect of the present invention, there is provided a method for receiving an image signal, comprising: receiving an image signal, wherein the image signal comprises: a plurality of merged images, each merged image representing image data obtained from a set of at least two source images of the plurality of source images, representing a scene from different viewing poses, each pixel of the fused image represents a scene for a ray pose, and the ray poses for each fused image include at least two different positions, wherein a ray pose for a pixel represents a pose for a ray in the viewing direction of the pixel and from view position for pixel; image data for a set of segments of a plurality of source images, wherein the segment for the first source image contains at least one pixel of the first source image for which a prediction quality measure for predicting the segment from the plurality of merged images is below a threshold value; and image signal processing.

В соответствии с аспектом настоящего изобретения предложен сигнал изображения, содержащий: множество объединенных изображений, причем каждое объединенное изображение представляет данные изображения, полученные из набора по меньшей мере из двух исходных изображений множества исходных изображений, представляющих сцену из различных поз обзора, каждый пиксель объединенного изображения представляет сцену для позы луча, а позы луча для каждого объединенного изображения включают в себя по меньшей мере два разных положения, причем поза луча для пикселя представляет позу для луча в направлении обзора для пикселя и из положения обзора для пикселя; данные изображения для набора сегментов множества исходных изображений, причем сегмент для первого исходного изображения содержит по меньшей мере один пиксель первого исходного изображения, для которого мера качества прогнозирования для прогнозирования сегмента из множества объединенных изображений ниже порогового значения.According to an aspect of the present invention, there is provided an image signal comprising: a plurality of fused images, each fused image representing image data obtained from a set of at least two source images of a plurality of source images representing a scene from different viewing poses, each pixel of the fused image representing a scene for a ray pose, and the ray poses for each fused image include at least two different positions, wherein the ray pose for a pixel represents a pose for the ray in a viewing direction for the pixel and from a viewing position for the pixel; image data for a set of segments of the plurality of source images, wherein the segment for the first source image contains at least one pixel of the first source image for which a measure of prediction quality for predicting the segment from the plurality of merged images is below a threshold value.

Эти и другие аспекты, признаки и/или преимущества настоящего изобретения станут очевидны из вариантов реализации, описанных далее в этом документе, и будут пояснены со ссылкой на вариант(ы) реализации.These and other aspects, features and/or advantages of the present invention will become apparent from the embodiments described later in this document and will be explained with reference to the embodiment(s).

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

Варианты реализации изобретения будут описаны только на примерах со ссылкой на чертежи, на которых:Embodiments of the invention will be described only by way of example with reference to the drawings, in which:

На Фиг. 1 показан пример схемы расположения для обеспечения восприятия виртуальной реальности;In FIG. 1 shows an example of a layout for providing virtual reality perception;

На Фиг. 2 показан пример схемы расположения для захвата для сцены;In FIG. 2 shows an example layout for a scene gripper;

На Фиг. 3 показан пример схемы расположения для захвата для сцены;In FIG. 3 shows an example layout for a scene gripper;

На Фиг. 4 показан пример элементов устройства в соответствии с некоторыми вариантами реализации настоящего изобретения;In FIG. 4 shows an example of elements of a device in accordance with some embodiments of the present invention;

На Фиг. 5 показан пример элементов устройства в соответствии с некоторыми вариантами реализации настоящего изобретения;In FIG. 5 shows an example of elements of a device in accordance with some embodiments of the present invention;

На Фиг. 6 показан пример выбора пикселей в соответствии с некоторыми вариантами реализации настоящего изобретения; иIn FIG. 6 illustrates an example of pixel selection in accordance with some embodiments of the present invention; And

На Фиг. 7 показан пример выбора пикселей в соответствии с некоторыми вариантами реализации настоящего изобретения;In FIG. 7 illustrates an example of pixel selection in accordance with some embodiments of the present invention;

На Фиг. 8 показан пример элементов расположения позы луча для объединенного изображения, формируемого в соответствии с некоторыми вариантами реализации настоящего изобретения;In FIG. 8 illustrates an example of beam pose arrangement elements for a fused image generated in accordance with some embodiments of the present invention;

На Фиг. 9 показан пример элементов расположения позы луча для объединенного изображения, формируемого в соответствии с некоторыми вариантами реализации настоящего изобретения;In FIG. 9 illustrates an example of beam pose arrangement elements for a fusion image generated in accordance with some embodiments of the present invention;

На Фиг. 10 показан пример элементов расположения позы луча для объединенного изображения, формируемого в соответствии с некоторыми вариантами реализации настоящего изобретения;In FIG. 10 illustrates an example of beam pose arrangement elements for a fusion image generated in accordance with some embodiments of the present invention;

На Фиг. 11 показан пример элементов расположения позы луча для объединенного изображения, формируемого в соответствии с некоторыми вариантами реализации настоящего изобретения;In FIG. 11 illustrates an example of beam pose arrangement elements for a fused image generated in accordance with some embodiments of the present invention;

На Фиг. 12 показан пример элементов расположения позы луча для объединенного изображения, формируемого в соответствии с некоторыми вариантами реализации настоящего изобретения; иIn FIG. 12 illustrates an example of beam pose arrangement elements for a fused image generated in accordance with some embodiments of the present invention; And

На Фиг. 13 показан пример элементов расположения позы луча для объединенного изображения, формируемого в соответствии с некоторыми вариантами реализации настоящего изобретения.In FIG. 13 illustrates an example of beam pose arrangement elements for a fused image generated in accordance with some embodiments of the present invention.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯIMPLEMENTATION OF THE INVENTION

Виртуальные восприятия, позволяющие пользователю перемещаться в виртуальном мире, становятся все более популярными, и для удовлетворения такого спроса разрабатывают услуги.Virtual perceptions, which allow the user to navigate in a virtual world, are becoming increasingly popular, and services are being developed to meet this demand.

Однако предоставление эффективных услуг виртуальной реальности является очень сложной задачей, в частности, если восприятие должно быть основано на захвате окружающей обстановки реального мира, а не на полностью виртуально сформированном искусственном мире.However, providing effective virtual reality services is very challenging, particularly if the perception is to be based on capturing the real world environment rather than a fully virtualized artificial world.

Во многих приложениях виртуальной реальности определяют входные данные позы зрителя, отражающей позу виртуального зрителя в сцене.Many virtual reality applications define viewer pose input data that reflects the pose of the virtual viewer in the scene.

Затем устройство/система/приложение виртуальной реальности формирует одно или более изображений, соответствующих видам и окнам просмотра сцены для зрителя, соответствующего позе зрителя.The virtual reality device/system/application then generates one or more images corresponding to views and viewports of the scene for the viewer corresponding to the viewer's pose.

Как правило, приложение виртуальной реальности формирует трехмерные выходные данные в виде отдельных изображений вида для левого и правого глаз.Typically, a virtual reality application produces 3D output in the form of separate images of the view for the left and right eyes.

Затем они могу быть представлены пользователю с помощью подходящих средств, обычно таких, как отдельные дисплеи для левого и правого глаз гарнитуры виртуальной реальности (VR).They can then be presented to the user through suitable means, typically such as separate left- and right-eye displays of a virtual reality (VR) headset.

В других вариантах реализации изображение может быть, например, представлено на автостереоскопическом дисплее (в этом случае может быть сформировано большее количество изображений вида для позы зрителя) или, в действительности, в некоторых вариантах реализации может быть сформировано только одно двумерное изображение (например, с использованием обычного двумерного дисплея).In other embodiments, the image may, for example, be presented on an autostereoscopic display (in which case more views of the viewer's pose may be generated) or, in fact, in some embodiments, only a single two-dimensional image may be generated (for example, using conventional two-dimensional display).

Входные данные позы зрителя могут быть определены разными путями в разных приложениях.The viewer pose input can be determined in different ways in different applications.

Во многих вариантах реализации физическое движение пользователя может быть отслежено непосредственно.In many embodiments, the user's physical movement can be tracked directly.

Например, камера, производящая съемку области пользователя, может обнаруживать и отслеживать голову (или даже глаза) пользователя.For example, a camera capturing a user's area can detect and track the user's head (or even eyes).

Во многих вариантах реализации пользователь может носить гарнитуру виртуальной реальности, которая может быть отслежена внешними и/или внутренними средствами.In many embodiments, the user may wear a virtual reality headset that can be tracked externally and/or internally.

Например, гарнитура может содержать акселерометры и гироскопы, обеспечивающие информацию о перемещении и повороте гарнитуры и, следовательно, головы.For example, the headset may contain accelerometers and gyroscopes that provide information about the movement and rotation of the headset and therefore the head.

В некоторых примерах гарнитура виртуальной реальности может передавать сигналы или содержать (например, визуальные) идентификаторы, которые позволяют внешнему датчику определять перемещение гарнитуры виртуальной реальности.In some examples, the virtual reality headset may transmit signals or contain (eg, visual) identifiers that allow an external sensor to detect movement of the virtual reality headset.

В некоторых системах поза зрителя может быть предоставлена с помощью ручных средств, например, пользователем, вручную управляющим джойстиком или аналогичным средством ввода вручную.In some systems, the viewer's pose may be provided by manual means, for example, by the user manually operating a joystick or similar manual input means.

Например, пользователь может вручную перемещать виртуального зрителя вокруг сцены, управляя первым аналоговым джойстиком одной рукой, и управлять вручную направлением, в котором смотрит виртуальный зритель, двигая вручную второй аналоговый джойстик другой рукой.For example, a user can manually move a virtual spectator around a stage by operating a first analog stick with one hand, and manually control the direction in which the virtual spectator is looking by manually moving a second analog stick with the other hand.

В некоторых приложениях для формирования входной позы зрителя может быть использовано сочетание ручного и автоматизированного подходов.Some applications may use a combination of manual and automated approaches to generate the viewer's input pose.

Например, гарнитура может отслеживать ориентацию головы, а перемещением/положением зрителя в сцене может управлять пользователь с помощью джойстика.For example, the headset can track head orientation, and the viewer's movement/position in the scene can be controlled by the user using a joystick.

Формирование изображений основано на подходящем представлении виртуального мира/среды/сцены.The generation of images is based on a suitable representation of the virtual world/environment/scene.

В некоторых приложениях может быть предусмотрена полная трехмерная модель для сцены, а виды сцены из конкретной позы зрителя могут быть определены путем оценки этой модели.In some applications, a complete 3D model for a scene may be provided, and views of the scene from a particular viewer pose can be determined by evaluating this model.

Во многих практических системах сцена может быть представлена представлением изображения, содержащим данные изображения.In many practical systems, a scene can be represented by an image representation containing image data.

Данные изображения могут, как правило, содержать изображения, связанные с одной или более позами захвата или привязочными позами, и, в частности, могут быть включены изображения для одного или более окон просмотра, причем каждое окно просмотра соответствует конкретной позе.The image data may typically comprise images associated with one or more gripping poses or anchoring poses, and in particular may include images for one or more viewports, each viewport corresponding to a particular pose.

Может быть использовано представление изображения, содержащее одно или более изображений, где каждое изображение представляет вид данного окна обзора для данной позы обзора.An image representation may be used comprising one or more images, where each image represents a view of a given viewport for a given viewing pose.

Такие позы или положения обзора, для которых предоставляют данные изображения, часто называют привязочными позами или положениями либо позами или положениями захвата (т.к. данные изображения могут, как правило, соответствовать изображениям, которые захватывают или будут захвачены камерами, расположенными в сцене в положении и ориентации, соответствующими позе захвата).Such poses or viewing positions for which image data are provided are often called anchor poses or positions or capture poses or positions (since the image data may typically correspond to images that are, or will be, captured by cameras positioned in the scene and orientation corresponding to the gripping posture).

Многие типичные приложения виртуальной реальности могут на основе такого представления изображения приступать к предоставлению изображений вида, соответствующих окнам просмотра для сцены для текущей позы зрителя, причем изображения динамически обновляются для отражения изменений позы зрителя, и при этом изображения формируются на основе данных изображения, представляющих (возможно) виртуальную сцену/среду/мир.Many typical virtual reality applications may, based on such an image representation, proceed to provide view images corresponding to viewports for the scene for the viewer's current pose, wherein the images are dynamically updated to reflect changes in the viewer's pose, and wherein the images are generated based on image data representing (possibly ) virtual stage/environment/world.

Приложение может делать это путем выполнения алгоритмов синтеза и сдвига вида, как известно специалисту в данной области.The application may do this by executing synthesis and view shifting algorithms as known to one of ordinary skill in the art.

В данной области техники термины «расположение» и «поза» используются как общий термин для положения и/или направления/ориентации.In the art, the terms "position" and "posture" are used as a general term for position and/or direction/orientation.

Комбинация позиции и направления/ориентации, например, объекта, камеры, головы или вида, может называться позой или расположением.The combination of position and direction/orientation, such as an object, camera, head, or view, can be called pose or orientation.

Таким образом, указание расположения или позы может включать шесть значений/компонентов/степеней свободы, причем каждые значение/компонент/степень свободы описывают отдельное свойство позиции/местоположения или ориентации/направления соответствующего объекта.Thus, a location or pose specification may include six values/components/DOF, with each value/component/DOF describing a different property of the position/location or orientation/direction of the corresponding object.

Конечно, во многих ситуациях расположение или поза могут быть учтены или представлены с использованием меньшего числа компонентов, например, если один или более компонентов считают фиксированными или не относящимися к делу (например, если все объекты считают расположенными на одной и той же высоте и имеющими горизонтальную ориентацию, то полное представление позы объекта могут обеспечить четыре компонента).Of course, in many situations, location or pose can be taken into account or represented using fewer components, for example, if one or more components are considered fixed or irrelevant (for example, if all objects are considered to be located at the same height and have a horizontal orientation, then four components can provide a complete representation of the object's pose).

Далее термин «поза» используется для ссылки на позицию и/или ориентацию, которые могут быть представлены от одного до шести значениями (соответствующими максимально возможным степеням свободы).In the following, the term “pose” is used to refer to position and/or orientation, which can be represented by one to six values (corresponding to the maximum possible degrees of freedom).

Многие приложения виртуальной реальности основаны на позе, имеющей максимум степеней свободы, т.е. по три степени свободы для каждого положения и ориентации, дающих в результате в общей сложности шесть степеней свободы.Many virtual reality applications are based on a pose that has maximum degrees of freedom, i.e. three degrees of freedom for each position and orientation, resulting in a total of six degrees of freedom.

Таким образом, поза может быть представлена набором или вектором из шести значений, представляющих шесть степеней свободы и, следовательно, вектор позы может обеспечивать указание трехмерной позиции и/или трехмерного направления.Thus, a pose may be represented by a set or vector of six values representing six degrees of freedom and, therefore, the pose vector may provide an indication of a three-dimensional position and/or a three-dimensional direction.

Однако понятно, что в других вариантах реализации поза может быть представлена меньшим количеством значений.However, it is understood that in other embodiments the pose may be represented by fewer values.

Поза может быть по меньшей мере одним из ориентации и положения.The pose may be at least one of orientation and position.

Значение позы может указывать по меньшей мере одно из значения ориентации и значения положения.The pose value may indicate at least one of an orientation value and a position value.

Систему или объект, основанные на обеспечении максимума степеней свободы для зрителя, обычно называют имеющими 6 степеней свободы (6DoF).A system or object based on providing maximum degrees of freedom to the viewer is usually referred to as having 6 degrees of freedom (6DoF).

Многие системы и объекты обеспечивают только ориентацию или позицию, и их обычно называют имеющими 3 степени свободы (3DoF).Many systems and objects provide only orientation or position and are commonly referred to as having 3 degrees of freedom (3DoF).

В некоторых системах приложение виртуальной реальности может быть предоставлено зрителю локально, например, с помощью автономного устройства, которое не использует какие-либо удаленные данные или обработку виртуальной реальности, или даже не имеет никакого доступа к ним.In some systems, the virtual reality application may be provided to the viewer locally, for example, by a standalone device that does not use, or even have any access to, any remote virtual reality data or processing.

Например, устройство, такое как игровая консоль, может содержать хранилище для хранения данных сцены, вход для приема/формирования позы зрителя и процессор для формирования соответствующих изображений из данных сцены.For example, a device such as a game console may include storage for storing scene data, an input for receiving/generating a viewer's pose, and a processor for generating corresponding images from the scene data.

В других системах приложение виртуальной реальности может быть реализовано и выполнено удаленно от зрителя.In other systems, the virtual reality application may be implemented and executed remotely from the viewer.

Например, устройство, локальное для пользователя, может обнаруживать/принимать данные движения/позы, передаваемые удаленному устройству, которое обрабатывает данные для формирования позы зрителя.For example, a device local to the user may detect/receive motion/pose data transmitted to a remote device, which processes the data to generate the viewer's pose.

После этого удаленное устройство может формировать подходящие изображения вида для позы зрителя на основе данных сцены, описывающих сцену.The remote device can then generate suitable view images for the viewer's pose based on the scene data describing the scene.

Затем изображения вида передают на устройство, локальное для зрителя, где их представляют.The view images are then transferred to a device local to the viewer where they are presented.

Например, удаленное устройство может непосредственно формировать видеопоток (обычно поток стерео/3D-видео), который непосредственно представляют с помощью локального устройства.For example, a remote device can directly generate a video stream (typically a stereo/3D video stream) that is directly presented by the local device.

Поэтому в таком примере локальное устройство может не выполнять никакой обработки виртуальной реальности за исключением передачи данных движения и представления принятых видеоданных.Therefore, in such an example, the local device may not perform any virtual reality processing except for transmitting motion data and presenting received video data.

Во многих системах функциональные возможности могут быть распределены между локальным устройством и удаленным устройством.In many systems, functionality can be distributed between a local device and a remote device.

Например, локальное устройство может обрабатывать принимаемые входные данные и данные датчиков для формирования поз зрителя, которые непрерывно передаются на удаленное устройство виртуальной реальности.For example, a local device may process received inputs and sensor data to generate viewer poses that are continuously transmitted to a remote virtual reality device.

После этого удаленное устройство виртуальной реальности может формировать соответствующие изображения вида и передавать их на локальное устройство для представления.The remote VR device can then generate appropriate images of the view and transmit them to the local device for presentation.

В других системах удаленное устройство виртуальной реальности может не формировать непосредственно изображения вида, но может выбирать соответствующие данные сцены и передавать их на локальное устройство, которое может затем формировать изображения вида, которые представляют.In other systems, the remote virtual reality device may not directly generate images of the view, but may select relevant scene data and transmit it to the local device, which can then generate images of the view it represents.

Например, удаленное устройство виртуальной реальности может идентифицировать ближайшую точку захвата, выделить соответствующие данные сцены (например, сферическое изображение и данные глубины из точки захвата) и передать их на локальное устройство.For example, a remote VR device can identify a nearby capture point, extract relevant scene data (e.g., spherical image and depth data from the capture point), and transmit it to the local device.

После этого локальное устройство может обработать принятые данные сцены для формирования изображений для конкретной текущей позы обзора.The local device can then process the received scene data to generate images for the specific current viewing pose.

Обычно поза обзора будет соответствовать позе головы, а ссылки на позу обзора, как правило, могут в равной степени рассматриваться как соответствующие ссылки на позу головы.Generally, viewing pose will correspond to head pose, and references to viewing pose can generally be treated equally as corresponding references to head pose.

Во многих приложениях, особенно для широковещательных служб, источник может передавать данные сцены в виде представления изображения (включая видео) сцены, которое не зависит от позы зрителя.In many applications, especially for broadcast services, a source may convey scene data as an image (including video) representation of the scene that is independent of the viewer's pose.

Например, представление изображения для одной сферы обзора для одного положения захвата может быть передано множеству клиентов.For example, an image representation for one field of view for one grip position may be shared with multiple clients.

Отдельные клиенты могут затем локально синтезировать изображения вида, соответствующие текущей позе зрителя.Individual clients can then locally synthesize view images corresponding to the viewer's current pose.

Приложением, вызывающим особый интерес, является приложение, в котором поддерживается перемещение ограниченной величины, так что представленные виды обновляются вслед за небольшими перемещениями и поворотами, соответствующими по существу статическому зрителю, совершающему только небольшие движения головой и повороты головы.An application of particular interest is one that supports movement of a limited amount so that the presented views are updated with small movements and rotations corresponding to an essentially static viewer making only small head movements and rotations.

Например, сидящий зритель может поворачивать свою голову и слегка перемещать ее, причем представляемые виды/изображения адаптируются в соответствии с этими изменениями позы.For example, a seated viewer may turn their head and move it slightly, with the views/images presented adapting to these posture changes.

Такой подход может обеспечить восприятие, например, видео, с высокой степенью погружения.This approach can provide a highly immersive experience, such as video.

Например, зритель, наблюдающий за спортивным соревнованием, может ощущать, что он присутствует в определенном месте на арене.For example, a spectator watching a sporting event may feel as if he is present at a specific location in the arena.

Преимуществом таких приложений с ограниченной свободой является обеспечение улучшенного восприятия при необязательном точном представлении сцены из множества различных положений и, тем самым, существенное уменьшение требований к захвату.The advantage of such constrained freedom applications is to provide improved perception without necessarily accurately representing the scene from many different positions, thereby significantly reducing capture requirements.

Аналогичным образом, количество данных, которые необходимо предоставить в рендерер, может существенно уменьшено.Likewise, the amount of data that needs to be provided to the renderer can be significantly reduced.

Действительно, во многих сценариях необходимо предоставлять только изображение и, как правило, данные глубины для одной точки обзора, причем локальный рендерер может формировать из этого требуемые виды.Indeed, in many scenarios, it is necessary to provide only the image and, usually, depth data for a single viewpoint, and the local renderer can form the required views from this.

Такой подход может, в частности, быть весьма подходящим для приложений, в которых данные должны передаваться из источника в место назначения по каналу связи с ограниченной полосой пропускания, таких как, например, приложение для широковещания или приложение клиент-сервер.This approach may be particularly suitable for applications in which data must be transferred from a source to a destination over a limited bandwidth communication channel, such as, for example, a broadcast application or a client-server application.

На Фиг. 1 показан такой пример системы виртуальной реальности, в которой удаленное клиентское устройство 101 виртуальной реальности поддерживает связь с сервером 103 виртуальной реальности, например, через сеть 105, такую как Интернет.In FIG. 1 shows such an example of a virtual reality system in which a remote virtual reality client device 101 communicates with a virtual reality server 103, for example, through a network 105 such as the Internet.

Сервер 103 может быть выполнен с возможностью одновременной поддержки потенциально большого количества клиентских устройств 101.The server 103 may be configured to support a potentially large number of client devices 101 simultaneously.

Сервер 103 виртуальной реальности может, например, поддерживать восприятие широковещания путем передачи сигнала изображения, содержащего представление изображения в виде данных изображения, которые могут быть использованы клиентскими устройствами для локального синтезирования изображений вида, соответствующих надлежащим позам.The virtual reality server 103 may, for example, support broadcast perception by transmitting an image signal containing an image representation in the form of image data that can be used by client devices to locally synthesize view images corresponding to appropriate poses.

Поэтому во многих применениях, таких как показанное на Фиг. 1, может быть желательно захватывать сцену и формировать эффективное представление изображения, которое может быть эффективно включено в сигнал изображения.Therefore, in many applications, such as the one shown in FIG. 1, it may be desirable to capture a scene and form an effective image representation that can be efficiently included in the image signal.

После этого сигнал изображения может быть передан различным устройствам, которые могут локально синтезировать виды для других поз обзора, отличных от поз захвата.The image signal can then be transmitted to various devices, which can locally synthesize views for viewing poses other than grasping poses.

Для этого представление изображения может, как правило, включать в себя информацию о глубине, и, например, могут быть предоставлены изображения со связанной глубиной.To this end, the image representation may typically include depth information and, for example, images with associated depth may be provided.

Например, карты глубины могут быть получены с использованием стереозахвата в сочетании с оценкой диспаратности или с использованием датчиков дальности, и эти карты глубины могут быть предоставлены вместе со светоинтенсивными изображениями.For example, depth maps can be obtained using stereo capture in combination with disparity estimation or using range sensors, and these depth maps can be provided along with light-intensity images.

Однако особой проблемой для таких подходов является то, что изменение позы обзора может изменить характеристики заслонения с получением в результате сегментов заднего плана, которые не видны на данном захваченном изображении, но становятся видны для другой позы обзора.However, a particular problem with such approaches is that changing the viewing pose can change the occlusion characteristics, resulting in background segments that are not visible in a given captured image but become visible for a different viewing pose.

Чтобы решить эту проблему, для захвата сцены часто используют относительно большое количество камер.To solve this problem, a relatively large number of cameras are often used to capture a scene.

На Фиг. 2 показан пример захвата круговой 8-видовой многокамерной установкой.In FIG. Figure 2 shows an example of capture with a circular 8-view multi-camera setup.

В данном примере камеры обращены наружу.In this example, the cameras are facing outwards.

Как можно увидеть, различные камеры, и, следовательно, различные захваты/исходные изображения, могут иметь видимость различных частей сцены.As you can see, different cameras, and therefore different captures/source images, may have views of different parts of the scene.

Например, область 1 заднего плана видна только из камеры 2.For example, background area 1 is only visible from camera 2.

Однако, как можно увидеть, большая часть сцены видна из множества камер, и, следовательно, создается значительное количество избыточной информации.However, as can be seen, most of the scene is visible from many cameras, and hence a significant amount of redundant information is generated.

На Фиг. 3 показан пример линейного набора камер.In FIG. Figure 3 shows an example of a linear set of cameras.

Опять же, камеры обеспечивают информацию о разных частях сцены, например, c1 является единственной камерой, захватывающей область 2, c3 является единственной камерой, захватывающей область 4, а c4 является единственной камерой, захватывающей область 3.Again, cameras provide information about different parts of the scene, for example c1 is the only camera capturing area 2, c3 is the only camera capturing area 4, and c4 is the only camera capturing area 3.

В то же время, некоторые части сцены захватываются более чем одной камерой.At the same time, some parts of the scene are captured by more than one camera.

Например, все камеры захватывают переднюю часть объектов fg1 и fg2 переднего плана, причем некоторые камеры обеспечивают более хороший захват, чем другие.For example, all cameras capture the front of foreground objects fg1 and fg2, with some cameras capturing better than others.

На Фиг. 3 показаны пример A для четырех камер и пример B для двух камер.In FIG. Figure 3 shows example A for four cameras and example B for two cameras.

Как можно увидеть, четырехкамерная установка обеспечивает более хороший захват сцены (области 4 заднего плана bg), но, конечно, также формирует большее количество данных, содержащих больше избыточных данных.As can be seen, the four-camera setup provides better scene capture (background areas 4 bg), but of course also generates more data containing more redundant data.

Недостатком многовидового захвата по отношению к одному центральному виду, очевидно, является увеличенное количество данных изображения.The disadvantage of multi-view capture relative to a single central view is obviously the increased amount of image data.

Другим недостатком является огромное количество формируемых пикселей, т.е. скорость передачи в пикселях, которые должны быть обработаны, и которые должен произвести декодер.Another disadvantage is the huge number of pixels generated, i.e. the bit rate in pixels that must be processed and that the decoder must produce.

Это также требует повышенных сложности и использования ресурсов для синтеза видов во время воспроизведения.It also requires increased complexity and resource use to synthesize species during reproduction.

Далее будет описан конкретный подход, в котором используется более эффективное и менее избыточное представление изображения захваченных видов.A specific approach that uses a more efficient and less redundant image representation of the captured views will be described next.

Он направлен на сохранение некоторой пространственной и временной когерентности данных изображения, позволяющих повысить эффективность видеокодеров.It aims to preserve some spatial and temporal coherence in image data to improve the efficiency of video encoders.

Он уменьшает скорости передачи в битах, скорость передачи в пикселях и сложность синтеза видов на стороне воспроизведения.It reduces bit rates, pixel rates, and view synthesis complexity on the playback side.

Это представление содержит множество объединенных изображений, каждое из которых формируют из двух или более исходных изображений (которые, в частности, могут быть захваченными 3D-изображениями, например, представленными как изображение плюс карта глубины), причем, как правило, рассматривают только часть каждого исходного изображения.This representation contains a plurality of merged images, each formed from two or more original images (which in particular may be captured 3D images, e.g. represented as an image plus a depth map), typically only considering a portion of each original Images.

Объединенные изображения могут служить основой для синтеза видов и обеспечивать существенную информацию о сцене.Merged images can serve as the basis for view synthesis and provide significant information about the scene.

Объединенные изображения могут быть сформированы со смещением в сторону более внешних видов сцены и, в частности, к границам области захвата.The merged images can be generated with a bias towards more external views of the scene and, in particular, towards the boundaries of the capture area.

В некоторых вариантах реализации также могут быть предоставлены одно или более центральных объединенных изображений.In some embodiments, one or more central merged images may also be provided.

Во многих вариантах реализации каждое из объединенных изображений представляет виды из различных положений обзора, т.е. каждое изображение может содержать по меньшей мере пиксели, которые соответствуют различным позам обзора/захвата/привязки.In many embodiments, each of the merged images represents views from different viewing positions, i.e. each image may contain at least pixels that correspond to different viewing/grabbing/anchoring poses.

В частности, каждый пиксель объединенного изображения может представлять позу луча, соответствующую началу/положению и направлению/ориентации для луча из этого начала/положения, направленного в этом направлении/ориентации и заканчивающегося в точке/на объекте сцены, представляемых значением пикселя для этого пикселя.In particular, each pixel of the fused image may represent a ray pose corresponding to an origin/position and direction/orientation for a ray from that origin/position directed in that direction/orientation and ending at a point/object in the scene represented by the pixel value for that pixel.

По меньшей мере два пикселя объединенного изображения могут иметь разные начала/положения луча.At least two pixels of the merged image may have different ray origins/positions.

Например, в некоторых вариантах реализации пиксели объединенного изображения могут быть разделены на N групп, причем все пиксели в группе имеют одного и то же, но отличное от других групп, начало/положение.For example, in some embodiments, the pixels of the merged image may be divided into N groups, with all pixels in the group having the same origin/position, but different from the other groups.

N может быть равно двум или больше.N can be two or more.

В некоторых вариантах реализации N может быть равно максимальному количеству горизонтальных пикселей в ряде (и/или количеству столбцов в объединенном изображении), и даже в некоторых вариантах реализации N может быть равно количеству пикселей, т.е. все пиксели могут иметь уникальное начало/позу луча.In some embodiments, N may be equal to the maximum number of horizontal pixels in a row (and/or the number of columns in a merged image), and even in some embodiments, N may be equal to the number of pixels, i.e. all pixels can have a unique ray origin/pose.

Таким образом, поза луча для пикселя может представлять начало/положение и/или ориентацию/положение для луча между началом/положением и точкой сцены, представляемой пикселем.Thus, a ray pose for a pixel may represent an origin/position and/or an orientation/position for a ray between the origin/position and a point in the scene represented by the pixel.

Начало/положение может быть, в частности, положением обзора для пикселя, а ориентация/направление может быть направлением обзора для пикселя.The origin/position may be, in particular, the viewing position for the pixel, and the orientation/direction may be the viewing direction for the pixel.

Она может эффективно представлять луч света, который будет захвачен в положении луча из направления луча для пикселя, и, следовательно, отражает луч света, который представлен значением пикселя.It can effectively represent a ray of light that will be captured at a ray position from the ray direction for a pixel, and therefore reflects a ray of light that is represented by a pixel value.

Таким образом, каждый пиксель может представлять сцену, если смотреть из положения обзора в направлении обзора.Thus, each pixel can represent a scene as viewed from the viewing position in the viewing direction.

Положение обзора и направление обзора соответственно определяют луч.The viewing position and viewing direction respectively determine the beam.

Каждый пиксель может иметь связанный луч обзора из положения обзора для пикселя и в направлении обзора для пикселя.Each pixel may have an associated line of sight from the viewing position for the pixel and in the viewing direction for the pixel.

Каждый пиксель представляет сцену для позы луча (обзора), являющейся позой луча из точки/положения обзора для пикселя в направлении обзора.Each pixel represents a scene for a ray pose, which is the ray pose from the view point/position for the pixel in the view direction.

В частности, пиксель может представлять точку сцены (точку в сцене), в которой луч обзора пересекает объект сцены (включая задний план).In particular, a pixel may represent a scene point (a point in the scene) at which the line of sight intersects an object in the scene (including the background).

Пиксель может представлять лучи света из точки сцены в положение обзора и в направлении обзора.A pixel can represent rays of light from a point in the scene to the viewing position and in the viewing direction.

Луч обзора может быть лучом из положения обзора в направлении, пересекающем точку сцены.The view ray may be a ray from the view position in a direction intersecting a point in the scene.

Кроме того, объединенные изображения дополняют сегментами или фрагментами захваченных видов, которые были идентифицированы как недостаточно хорошо спрогнозированные из объединенных изображений.In addition, the fused images are augmented with segments or fragments of captured species that were identified as not being well predicted from the fused images.

Таким образом, определяют некоторое количество, как правило, относительно большое количество, обычно небольших сегментов и включают в специально представленные отдельные части захваченных изображений, которые могут обеспечить информацию об элементах сцены, недостаточно хорошо представленных объединенными изображениями.In this way, a number, typically a relatively large number, of typically small segments are determined and included in specially presented individual portions of the captured images that can provide information about elements of the scene not well represented by the combined images.

Преимуществом такого представления является то, что для различных частей данных изображения, подлежащих передаче, могут быть предусмотрены разные кодирования.The advantage of this representation is that different encodings can be provided for different parts of the image data to be transmitted.

Например, к объединенным изображениям могут быть применены эффективное и сложное кодирование и сжатие, поскольку они обычно составляют наибольшую часть сигнала изображения, тогда как к сегментам часто может быть применено менее эффективное кодирование.For example, efficient and complex coding and compression can be applied to spliced images since they typically constitute the largest portion of the image signal, whereas segments can often benefit from less efficient coding.

Кроме того, объединенные изображения могут быть сформированы так, чтобы они хорошо подходили для эффективного кодирования, например, за счет формирования таким образом, чтобы они напоминали обычные изображения и тем самым позволяли использовать эффективные подходы к кодированию изображений.Additionally, the fused images can be shaped to be well suited for efficient encoding, for example by being shaped to resemble conventional images and thereby allow efficient image encoding approaches.

В отличие от этого, свойства сегментов могут меняться значительно сильнее в зависимости от конкретных характеристик изображений, и поэтому их гораздо сложнее кодировать столь же эффективно.In contrast, the properties of segments can vary much more depending on the specific characteristics of the images, and are therefore much more difficult to encode as efficiently.

Однако это не проблема, поскольку сегменты обычно дают намного меньше данных изображения.However, this is not a problem since segments typically provide much less image data.

На ФИГ. 4 показан пример устройства для формирования сигнала изображения, который включает в себя представление множества исходных изображений сцены из различных исходных поз обзора (привязочных поз), как описано выше.In FIG. 4 shows an example of an apparatus for generating an image signal that includes representing a plurality of source images of a scene from different source viewing poses (anchor poses) as described above.

Это устройство будет также упоминаться как передатчик 400 сигнала изображения.This device will also be referred to as the image signal transmitter 400.

Передатчик 400 сигнала изображения может, например, содержаться в сервере 103 виртуальной реальности, приведенном на Фиг. 1The image signal transmitter 400 may, for example, be contained in the virtual reality server 103 shown in FIG. 1

На ФИГ. 5 показан пример устройства для рендеринга изображений вида на основе принятого сигнала изображения, который включает в себя представление множества изображений сцены.In FIG. 5 shows an example of an apparatus for rendering view images based on a received image signal, which includes representing a plurality of images of a scene.

Устройство может, в частности, принимать сигнал данных изображения, сформированный устройством, приведенным на Фиг. 4, и обрабатывать его для рендеринга изображений для конкретных поз обзора.The device may, in particular, receive an image data signal generated by the device shown in FIG. 4, and process it to render images for specific viewing poses.

Устройство, показанное на Фиг. 5, будет также упоминаться как приемник 500 сигнала изображения.The device shown in FIG. 5 will also be referred to as the image signal receiver 500.

Приемник 500 сигнала изображения может, например, содержаться в клиентском устройстве 101, приведенном на Фиг. 1The image signal receiver 500 may, for example, be included in the client device 101 shown in FIG. 1

Передатчик 400 сигнала изображения содержит приемник 401 источника изображений, который выполнен с возможностью приема множества исходных изображений сцены.The image signal transmitter 400 includes an image source receiver 401, which is configured to receive a plurality of scene source images.

Исходные изображения могут представлять виды сцены из различных поз обзора.The source images can represent views of the scene from different viewing poses.

Исходные изображения обычно могут быть захваченными изображениями, т.е. захваченными камерами многокамерной установки.The source images can usually be captured images, i.e. captured by cameras of a multi-camera installation.

Исходные изображения могут, например, содержать изображения из ряда равноудаленных камер захвата или из круга камер.The source images may, for example, contain images from a number of equally spaced capture cameras or from a circle of cameras.

Во многих вариантах реализации исходные изображения могут быть 3D-изображениями, содержащими 2D-изображения со связанной информацией о глубине.In many implementations, the source images may be 3D images containing 2D images with associated depth information.

2D-изображения могут быть, в частности, изображениями вида для окон обзора сцены из соответствующей поз захвата, и 2D-изображение может сопровождаться изображением или картой глубины, содержащей значения глубины для каждого пикселя 2D-изображения.The 2D images may be, in particular, view images for view windows of the scene from the corresponding grip pose, and the 2D image may be accompanied by an image or depth map containing depth values for each pixel of the 2D image.

2D-изображение может быть текстурной картой.A 2D image can be a texture map.

2D-изображение может быть светоинтенсивным изображением.The 2D image may be a light-intensive image.

Значения глубины могут быть, например, значениями диспаратности или значениями расстояния, например, указанными координатой z.The depth values may be, for example, disparity values or distance values, such as those indicated by a z coordinate.

В некоторых вариантах реализации исходное изображение может быть 3D-изображением в виде текстурной карты со связанной 3D-сеткой.In some implementations, the source image may be a 3D image in the form of a texture map with an associated 3D mesh.

В некоторых вариантах реализации такие представления текстурной картой и сеткой могут быть преобразованы приемником источника изображений в представления изображение плюс глубина перед дальнейшей обработкой передатчиком 400 сигнала изображения.In some implementations, such texture map and mesh representations may be converted by the image source receiver to image plus depth representations before further processing by the image signal transmitter 400.

Приемник 401 источника изображений соответственно принимает множество исходных изображений, которые характеризуют и представляют сцену из различных исходных поз обзора.The image source receiver 401 accordingly receives a plurality of source images that characterize and represent a scene from various source viewing poses.

Такой набор исходных изображений позволит формировать изображения вида для других поз с использованием алгоритмов, таких как сдвиг вида, как известно специалисту в данной области.Such a set of source images will allow view images to be generated for other poses using algorithms such as view shift, as known to one skilled in the art.

Соответственно, передатчик 400 сигнала изображения выполнен с возможностью формирования сигнала изображения, который содержит данные изображения для исходных изображений, и передает эти данные удаленному устройству для локального рендеринга.Accordingly, the image signal transmitter 400 is configured to generate an image signal that contains image data for the source images, and transmits this data to the remote device for local rendering.

Однако, непосредственная передача всех исходных изображений потребует неосуществимо высокой скорости передачи данных и будет содержать большой объем избыточной информации.However, direct transmission of all source images would require an unfeasibly high data rate and would contain a large amount of redundant information.

Передатчик 400 сигнала изображения выполнен с возможностью уменьшения скорости передачи данных за счет использования представления изображения, как описано ранее.The image signal transmitter 400 is configured to reduce the data rate by using an image representation as described previously.

В частности, приемник 401 входного источника соединен с генератором 403 объединенных изображений, который выполнен с возможностью формирования множества объединенных изображений.In particular, the input source receiver 401 is connected to a fusion image generator 403, which is configured to generate a plurality of fusion images.

Объединенные изображения содержат информацию, полученную из множества исходных изображений.Merged images contain information obtained from multiple original images.

Точный подход к получению объединенных изображений может отличаться между различными вариантами реализации, и позже будут более подробно описаны конкретные примеры.The exact approach to obtaining fused images may differ between different implementations, and specific examples will be described in more detail later.

В некоторых вариантах реализации объединенное изображение может быть сформировано путем выбора пикселей из различных исходных изображений.In some embodiments, a fused image may be generated by selecting pixels from different source images.

В других вариантах реализации в качестве альтернативы или дополнительно объединенные изображения могут формировать одно или более объединенных изображений путем синтеза вида из исходных изображений.In other embodiments, alternatively or additionally, the fused images may form one or more fused images by synthesizing the view from the original images.

Однако, в то время как каждое объединенное изображение содержит вклад по меньшей мере из двух, а чаще больше, исходных изображений, для каждого объединенного изображения обычно рассматривают только часть отдельных исходных изображений.However, while each fused image contains contributions from at least two, and often more, source images, only a portion of the individual source images are typically considered for each fused image.

Таким образом, для каждого исходного изображения, используемого для формирования данного комбинированного изображения, существуют некоторые пиксели, которые исключают/отбрасывают.Thus, for each source image used to form a given composite image, there are some pixels that are excluded/discarded.

Поэтому значения пикселей, формируемые для конкретного объединенного изображения, не зависят от значений этих пикселей.Therefore, the pixel values generated for a particular merged image are independent of the values of those pixels.

Объединенные изображения могут быть сформированы так, что каждое изображение не просто представляет одно положение обзора/захвата/привязки, а, скорее, представляет два или более положений обзора/захвата/привязки.The merged images may be formed such that each image does not simply represent one viewing/capturing/anchoring position, but rather represents two or more viewing/capturing/anchoring positions.

В частности, начало/положение луча по меньшей мере для некоторых пикселей в одном объединенном изображении будет различным, и, следовательно, одно объединенное изображение может представлять вид сцены из различных направлений.In particular, the origin/position of the ray for at least some pixels in one fused image will be different, and therefore one fused image can represent a view of the scene from different directions.

Соответственно, генератор 403 объединенных изображений может быть выполнен с возможностью формирования множества объединенных изображений из исходных изображений, причем каждое объединенное изображение получают из набора по меньшей мере из двух исходных изображений, и при этом получение первого объединенного изображения, как правило, включает только часть каждого из этих по меньшей мере двух исходных изображений.Accordingly, the fused image generator 403 may be configured to generate a plurality of fused images from the original images, each fused image being derived from a set of at least two original images, and wherein the production of the first fused image typically includes only a portion of each these at least two source images.

Кроме того, каждый пиксель данного объединенного изображения представляет сцену для позы луча, а позы луча для каждого объединенного изображения могут включать в себя по меньшей мере два различных положения.In addition, each pixel of a given fused image represents a scene for a ray pose, and the ray poses for each fused image may include at least two different poses.

Генератор 403 объединенных изображений соединен со средством 405 оценки, в которое подают объединенные изображения и исходные изображения.The fused image generator 403 is connected to an estimator 405, which is supplied with the fused images and the original images.

Средство 405 оценки выполнено с возможностью определения мер качества прогнозирования для элементов исходных изображений.The estimator 405 is configured to determine measures of prediction quality for elements of the source images.

Элемент может быть отдельным пикселем, а средство 405 оценки может быть выполнено с возможностью определения меры качества прогнозирования для каждого пикселя каждого исходного изображения.The element may be an individual pixel, and the estimator 405 may be configured to determine a measure of prediction quality for each pixel of each source image.

В других вариантах реализации элементы могут содержать множество пикселей, и каждый элемент может быть группой пикселей.In other implementations, elements may contain multiple pixels, and each element may be a group of pixels.

Например, мера качества прогнозирования может быть определена для блоков, например, блоков из 4 × 4 или 16 × 16 пикселей.For example, a measure of prediction quality may be defined for blocks, such as 4 × 4 or 16 × 16 pixel blocks.

Это может снизить степень детализации определяемых сегментов или фрагментов, но может существенно уменьшить сложность обработки и использование ресурсов.This may reduce the granularity of the segments or fragments being defined, but can significantly reduce processing complexity and resource usage.

Меру качества прогнозирования для данного элемента формируют так, чтобы она указывала разницу между значениями пикселя в первом исходном изображении для пикселей в элементе и прогнозируемыми значениями пикселя для пикселей в элементе.The prediction quality measure for a given element is configured to indicate the difference between the pixel values in the first source image for the pixels in the element and the predicted pixel values for the pixels in the element.

Таким образом, элемент может быть образован одним или более пикселями, а мера качества прогнозирования для элемента может указывать разницу между значениями пикселя для этих пикселей на первоначальном исходном изображении и значениями пикселей для пикселей, которые являются результатом прогнозирования на основе объединенных изображений.Thus, an element may be formed by one or more pixels, and a measure of prediction quality for an element may indicate the difference between the pixel values for those pixels in the original source image and the pixel values for the pixels that result from the prediction from the fused images.

Понятно, что в разных вариантах реализации могут быть использованы разные подходы к определению мер качества прогнозирования.It is clear that different implementations may use different approaches to determining measures of forecast quality.

В частности, во многих вариантах реализации средство 405 оценки может переходить к фактическому выполнению прогнозирования каждого исходного изображения из объединенных изображений.In particular, in many embodiments, the estimator 405 may proceed to actually perform a prediction of each source image from the fused images.

Затем оно может для каждого отдельного изображения и каждого отдельного пикселя определить разницу между первоначальным значением пикселя и прогнозируемым значением пикселя.It can then, for each individual image and each individual pixel, determine the difference between the original pixel value and the predicted pixel value.

Понятно, что может быть использована любая подходящая мера разницы, такая как, например, абсолютная разность, разность квадратных корней из сумм квадратов применительно к компонентам значения пикселя, например, множеству цветовых каналов, и т.д.It will be understood that any suitable difference measure may be used, such as, for example, the absolute difference, the difference of the square roots of sums of squares applied to the components of a pixel value, such as a plurality of color channels, etc.

Поэтому такое прогнозирование может имитировать прогнозирование/синтезирование вида, которое может быть выполнено приемником 500 сигнала изображения для формирования видов для поз обзора исходных изображений.Therefore, such prediction may simulate view prediction/synthesis that may be performed by image signal receiver 500 to generate views for viewing poses of source images.

Таким образом, меры качества прогнозирования отражают, насколько хорошо приемник объединенных изображений может формировать первоначальные исходные изображения на основе только объединенных изображений.Thus, prediction quality measures reflect how well a fusion image receiver can generate initial source images from only the fusion images.

Прогнозируемое изображение для исходного изображения из объединенных изображений может быть изображением для позы обзора исходного изображения, сформированным посредством синтеза вида из объединенных изображений.The predicted image for the original image from the fused images may be an image for the viewing pose of the original image generated by synthesizing the view from the fused images.

Синтез вида обычно включает сдвиг позы обзора и, как правило, сдвиг положения обзора.View synthesis typically involves a shift in viewing pose and, typically, a shift in viewing position.

Синтез вида может быть синтезом изображения сдвига вида.The view synthesis may be a view shift image synthesis.

Прогнозирование первого изображения из второго изображения может быть, в частности, синтезом вида изображения при позе обзора первого изображения на основе второго изображения (и его позы обзора).Predicting the first image from the second image may be, in particular, synthesizing the view of the image at the viewing pose of the first image based on the second image (and its viewing pose).

Таким образом, операция прогнозирования для прогнозирования первого изображения из второго изображения может заключаться в сдвиге позы обзора второго изображения из позы обзора, связанной с позой обзора первого изображения.Thus, the prediction operation for predicting the first image from the second image may be to shift the viewing pose of the second image from the viewing pose associated with the viewing pose of the first image.

Понятно, что в разных вариантах реализации могут быть использованы разные способы и алгоритмы для синтеза и прогнозирования вида.It is clear that different implementations may use different methods and algorithms for view synthesis and prediction.

Во многих вариантах реализации может быть использован алгоритм синтеза/прогнозирования вида, который в качестве входа берет позу обзора синтеза, для которой нужно сформировать синтезированное изображение, и множество входных изображений, каждое из которых связано с отличной от других позой обзора.In many implementations, a view synthesis/prediction algorithm may be used that takes as input a synthesis view pose for which a synthesized image is to be generated, and a plurality of input images, each associated with a different view pose.

Алгоритм синтеза вида может затем сформировать синтезированное изображение для данной позы обзора на основе входных изображений, который могут, как правило, содержать как текстурную карту, так и глубину.The view synthesis algorithm can then generate a synthesized image for a given viewing pose based on the input images, which may typically contain both a texture map and a depth map.

Известен ряд таких алгоритмов, и любой алгоритм может быть использован без ущерба для настоящего изобретения.A number of such algorithms are known, and any algorithm can be used without prejudice to the present invention.

В качестве примера такого подхода сначала могут быть сформированы промежуточные синтезированные/прогнозируемые изображения для каждого входного изображения.As an example of such an approach, intermediate synthesized/predicted images may first be generated for each input image.

Это может быть достигнуто, например, путем формирования сначала сетки для входного изображения на основе карты глубины изображения.This can be achieved, for example, by first generating a mesh for the input image based on the image's depth map.

Затем на основе геометрических вычислений сетка может быть деформирована/сдвинута из позы обзора входного изображения в позу обзора синтеза.Then, based on geometric calculations, the mesh can be deformed/shifted from the viewing pose of the input image to the viewing pose of the synthesis.

Вершины получающейся в результате сетки могут быть затем проецированы на промежуточное синтезированное/прогнозируемое изображение, и на это изображение может быть наложена текстурная карта.The vertices of the resulting mesh can then be projected onto an intermediate synthesized/predicted image, and a texture map can be overlaid on this image.

Например, такой процесс может быть реализован с использованием обработки вершин и шейдеров фрагментов, известных, например из стандартных графических конвейеров.For example, such a process could be implemented using vertex processing and fragment shaders known, for example, from standard graphics pipelines.

Таким образом, для каждого из входных изображений может быть сформировано промежуточное синтезированное/прогнозируемое изображение (далее в настоящем документе именуемое просто промежуточным прогнозируемым изображением) для позы обзора синтеза.Thus, for each of the input images, an intermediate synthesized/predicted image (hereinafter referred to simply as an intermediate predicted image) for the synthesis viewing pose can be generated.

Промежуточные прогнозируемые изображения могут быть после этого объединены друг с другом, например, посредством взвешенного объединения/суммирования или путем выборочного объединения.The intermediate predicted images can then be combined with each other, for example, by weighted combining/summation or by selective combining.

Например, в некоторых вариантах реализации каждый пиксель синтезированного/прогнозируемого изображения для позы обзора синтеза может быть сформирован путем выбора пикселя из промежуточного прогнозируемого изображения, который наиболее удален вперед, или пиксель может быть сформирован путем взвешенного суммирования соответствующего значения пикселя для всех промежуточных прогнозируемых изображений, причем вес для данного промежуточного прогнозируемого изображения зависит от глубины, определенной для пикселя.For example, in some embodiments, each pixel of the synthesized/predicted image for a synthesis view pose may be formed by selecting the pixel from the intermediate predicted image that is furthest forward, or the pixel may be formed by weighted summing the corresponding pixel value for all intermediate predicted images, wherein the weight for a given intermediate predicted image depends on the depth defined for the pixel.

Эту операцию объединения также называют операцией смешения.This combining operation is also called the mixing operation.

В некоторых вариантах реализации измерения качества прогнозирования могут быть выполнены без выполнения полного прогнозирования, а, вернее, может быть использована косвенная мера качества прогнозирования.In some embodiments, measurements of forecast quality may be made without performing a full forecast, but rather, an indirect measure of forecast quality may be used.

Например, мера качества прогнозирования может быть определена косвенно путем оценки параметра процесса, вовлеченного в сдвиг вида.For example, a measure of prediction quality can be determined indirectly by estimating the process parameter involved in the species shift.

Например, величины геометрического искажения (растяжения), приводящего к примитиву (обычно треугольнику) при выполнении сдвига позы обзора.For example, the amount of geometric distortion (stretch) resulting in a primitive (usually a triangle) when performing a viewing pose shift.

Чем больше геометрическое искажение, тем ниже мера качества прогнозирования для любого пикселя, представленного этим примитивом.The greater the geometric distortion, the lower the measure of prediction quality for any pixel represented by that primitive.

Таким образом, средство 405 оценки может определять меры качества прогнозирования для элементов множества исходных изображений, причем мера качества прогнозирования для элемента первого исходного изображения указывает разницу между прогнозируемыми значениями пикселя в элементе, прогнозируемом из множества объединенных изображений, и значениями пикселя в элементе на первом исходном изображении.Thus, the estimator 405 may determine prediction quality measures for elements of a plurality of source images, wherein the prediction quality measure for an element of the first source image indicates the difference between predicted pixel values in an element predicted from the plurality of merged images and pixel values in an element in the first source image. .

Средство 405 оценки соединено с определителем 407, который выполнен с возможностью определения сегментов исходных изображений, содержащих элементы, для которых мера качества прогнозирования указывает разницу выше порогового значения/мера качества прогнозирования, указывающую на качество прогнозирования ниже порогового значения.The estimator 405 is coupled to a determiner 407, which is configured to determine segments of source images containing elements for which a prediction quality measure indicates a difference above a threshold value/prediction quality measure indicating a prediction quality below a threshold value.

Сегменты могут соответствовать отдельным элементам, которые определены средством 405 оценки, и для которых мера качества прогнозирования ниже порогового значения качества.The segments may correspond to individual elements that are determined by the estimator 405 and for which the prediction quality measure is below a quality threshold.

Однако, во многих вариантах реализации определитель 407 может быть выполнен с возможностью формирования сегментов путем группирования таких элементов, и в действительности группирование может также включать некоторые элементы, для которых мера качества прогнозирования выше порогового значения.However, in many implementations, the determinant 407 may be configured to form segments by grouping such elements, and indeed the grouping may also include some elements for which the prediction quality measure is above a threshold.

Например, в некоторых вариантах реализации определитель 407 может быть выполнен с возможностью формирования сегментов путем группирования всех смежных элементов, которые имеют меру качества прогнозирования ниже порогового значения качества (далее называемые низкими мерами качества прогнозирования и элементами низкого качества, соответственно).For example, in some embodiments, the qualifier 407 may be configured to form segments by grouping all adjacent elements that have a predictive quality measure below a quality threshold (hereinafter referred to as low predictive quality measures and poor quality elements, respectively).

В других вариантах реализации определитель 407 может быть, например, выполнен с возможностью подбора сегментов данного размера и формы для изображений так, чтобы они включали в себя как можно больше элементов низкого качества.In other implementations, the determiner 407 may, for example, be configured to select segments of a given size and shape for the images so that they include as many low quality elements as possible.

Определитель 407 соответственно формирует набор сегментов, которые включают в себя элементы низкого качества, и, следовательно, которые не могут быть достаточно точно спрогнозированы из объединенных изображений.The determiner 407 accordingly generates a set of segments that include low quality features, and therefore, that cannot be accurately predicted from the fused images.

Как правило, эти сегменты будут соответствовать небольшой доле исходных изображений и, следовательно, относительно небольшому количеству данных и пикселей изображения.Typically, these segments will correspond to a small fraction of the original images and therefore a relatively small amount of data and image pixels.

Определитель 407 и генератор 403 объединенных изображений соединены с генератором 409 формирования сигнала изображения, который принимает объединенные изображения и сегменты.The determiner 407 and the merged image generator 403 are connected to an image signal generator 409 that receives the merged images and segments.

Генератор 409 сигнала изображения выполнен с возможностью формирования сигнала изображения, который содержит данные изображения, представляющие объединенные изображения, и данные изображения, представляющие сегменты.The image signal generator 409 is configured to generate an image signal that contains image data representing merged images and image data representing segments.

Генератор 409 сигнала изображения может, в частности, кодировать объединенные изображения и сегменты и может, в частности, делать это по-разному и использовать разные алгоритмы и стандарты кодирования для объединенных изображений и для сегментов.The image signal generator 409 may, in particular, encode the merged images and segments, and may, in particular, do so differently and use different encoding algorithms and standards for the merged images and for the segments.

Как правило, объединенные изображения кодируют с использованием эффективных алгоритмов и стандартов кодирования изображения или высокоэффективных алгоритмов и стандартов кодирования видео, если изображения являются кадрами видеосигнала.Typically, the fused images are encoded using efficient image encoding algorithms and standards, or high-efficiency video encoding algorithms and standards if the images are frames of a video signal.

Кодирование сегментов может быть, как правило, менее эффективным.Segment encoding may generally be less efficient.

Например, сегменты могут быть объединены в сегментные изображения, причем каждое изображение обычно может содержать сегменты из множества исходных изображений.For example, segments may be combined into segmented images, where each image typically may contain segments from a plurality of source images.

Такие объединенные сегментные изображения могут быть затем закодированы с использованием стандартного алгоритма кодирования изображения или видео.Such concatenated segmented images can then be encoded using a standard image or video encoding algorithm.

Однако ввиду смешанного и частичного характера таких объединенных сегментных изображений кодирование, как правило, менее эффективно, чем для обычных полных изображений.However, due to the mixed and partial nature of such concatenated segmented images, coding is typically less efficient than for conventional full images.

В качестве еще одного примера ввиду разреженного характера сегментов они не могут храниться в полных кадрах/изображениях.As another example, due to the sparse nature of segments, they cannot be stored in full frames/images.

В некоторых вариантах реализации сегменты могут быть, например, представлены в виде сеток в 3D-пространстве с использованием языка моделирования виртуальной реальности (Virtual Reality Modeling Language, VRML).In some implementations, the segments may, for example, be represented as meshes in 3D space using a Virtual Reality Modeling Language (VRML).

Обычно данные изображения для сегментов могут сопровождаться метаданными, указывающими происхождение сегментов, такое как, например, координаты первоначального изображения и происхождение камеры/исходного изображения.Typically, image data for segments may be accompanied by metadata indicating the origin of the segments, such as, for example, original image coordinates and camera/original image origin.

В одном примере сигнал изображения передают приемнику 500 сигнала изображения, который является частью клиентского устройства 101 виртуальной реальности.In one example, the image signal is transmitted to an image signal receiver 500 that is part of the virtual reality client device 101.

Приемник 500 сигнала изображения содержит приемник 501 сигнала изображения, который принимает сигнал изображения от передатчика 400 сигнала изображения.The image signal receiver 500 includes an image signal receiver 501 that receives the image signal from the image signal transmitter 400.

Приемник 501 сигнала изображения выполнен с возможностью декодирования сигнала изображения для восстановления объединенных изображений и сегментов.The image signal receiver 501 is configured to decode the image signal to reconstruct the combined images and segments.

Приемник 501 сигнала изображения соединен с процессором 503 изображения, который выполнен с возможностью обработки сигнала изображения и, в частности, объединенных изображений и сегментов.The image signal receiver 501 is connected to an image processor 503, which is configured to process the image signal and, in particular, the combined images and segments.

Во многих вариантах реализации процессор 503 изображения может быть выполнен с возможностью синтезирования изображений вида для различных поз обзора на основе объединенных изображений и сегментов.In many implementations, image processor 503 may be configured to synthesize view images for different viewing poses based on the fused images and segments.

В некоторых вариантах реализации процессор 503 изображения может сначала приступать к синтезированию исходных изображений.In some embodiments, image processor 503 may first begin synthesizing the source images.

Затем части синтезированных исходных изображений, сегмент для которых включен в сигнал изображения, могут быть заменены данными изображения, обеспечиваемыми сегментами.The portions of the synthesized original images for which a segment is included in the image signal can then be replaced by the image data provided by the segments.

Получающиеся в результате исходные изображения могут быть затем использованы для обычного синтеза изображений.The resulting source images can then be used for conventional image synthesis.

В других вариантах реализации объединенные изображения и сегменты могут быть использованы непосредственно без предварительного восстановления исходных изображений.In other implementations, the merged images and segments can be used directly without first reconstructing the original images.

Понятно, что передатчик 400 сигнала изображения и приемник 500 сигнала изображения содержат требуемые функциональные возможности для обмена сигналом изображения, включая функциональные возможности для кодирования, модулирования, передачи, приема и т.д. сигнала изображения.It is understood that the image signal transmitter 400 and the image signal receiver 500 contain the required functionality for exchanging the image signal, including functionality for encoding, modulation, transmission, reception, etc. image signal.

Понятно, что такие функциональные возможности будут зависеть от предпочтений и требований отдельного варианта реализации, и что такие технологии известны специалисту в данной области и, поэтому для ясности и краткости не будут обсуждаться далее в настоящем документе.It is understood that such functionality will depend on the preferences and requirements of the individual implementation, and that such technologies are known to one skilled in the art and therefore, for the sake of clarity and brevity, will not be discussed further herein.

В разных вариантах реализации могут быть использованы разные подходы к формированию объединенных изображений.Different implementations may use different approaches to generating fused images.

В некоторых вариантах реализации генератор 403 объединенных изображений может быть выполнен с возможностью формирования объединенных изображений путем выбора пикселей из исходных изображений.In some implementations, the fused image generator 403 may be configured to generate fused images by selecting pixels from the original images.

Например, для каждого пикселя в объединенном изображении генератор 403 объединенных изображений может выбрать один пиксель в одном из исходных изображений.For example, for each pixel in the fused image, the fused image generator 403 may select one pixel in one of the original images.

Изображение и/или карта глубины содержит пиксели, имеющие значения, которые можно рассматривать как представляющие соответствующее свойство изображения (интенсивность/интенсивности света или глубину) сцены вдоль луча, имеющего направление луча (ориентацию) из начала (положения) луча.The image and/or depth map contains pixels having values that can be considered to represent a corresponding image property (light intensity/intensities or depth) of a scene along a ray having a ray direction (orientation) from the origin (position) of the ray.

Начало луча обычно является позой обзора изображения для изображения, но может в некотором представлении меняться в зависимости от пикселей (таком как, например, всенаправленное стерео, в котором изображение, как таковое, можно рассматривать как имеющее позу обзора, соответствующую центру окружности всенаправленного видео, но при этом каждый пиксель имеет отдельную позу обзора, соответствующую положению на окружности всенаправленного видео).The ray onset is typically the viewing pose for the image, but may in some representation vary depending on the pixels (such as, for example, omnidirectional stereo, in which the image itself can be viewed as having a viewing pose corresponding to the center of the circle of the omnidirectional video, but each pixel has a separate viewing pose corresponding to its position on the circumference of the omnidirectional video).

Направление луча обычно может меняться в зависимости от пикселей, в частности, для изображений, на которых все пиксели имеют одно и то же начало луча (т.е. имеется одна общая поза обзора).The direction of the ray can typically vary across pixels, particularly for images in which all pixels have the same ray origin (i.e. there is one common viewing pose).

Начало и/или направление луча также часто называют позой луча или позой проецирования луча.The origin and/or direction of the beam is also often referred to as the beam pose or beam projection pose.

Таким образом, каждый пиксель связан с положением, представляющим собой начало луча/прямой линии.Thus, each pixel is associated with a position representing the origin of a ray/straight line.

Каждый пиксель также связан с направлением, являющимся направлением луча/прямой линии из начала.Each pixel is also associated with a direction, which is the direction of the ray/straight line from the origin.

Соответственно, каждый пиксель связан с лучом/прямой линией, которая определена положением/началом и направлением из этого положения/начала.Accordingly, each pixel is associated with a ray/straight line that is defined by a position/origin and a direction from that position/origin.

Значение пикселя задается соответствующим свойством для сцены в первом пересечении луча для пикселя и объекта сцены (включая задний план).The value of a pixel is specified by the corresponding property for the scene at the first intersection of the ray for the pixel and the scene object (including the background).

Таким образом, значение пикселя представляет свойство сцены вдоль луча/прямой линии, начинающейся в положении начала луча и имеющей направление, связанное с пикселем.Thus, a pixel value represents a property of the scene along a ray/straight line starting at the ray origin position and having a direction associated with the pixel.

Значение пикселя представляет свойство сцены вдоль луча, имеющего позу луча пикселя.A pixel value represents a property of the scene along a ray having the pixel's ray pose.

Таким образом, генератор 403 объединенных изображений может для данного первого пикселя в формируемом объединенном изображении определить соответствующие пиксели на исходных изображениях как пиксели, которые представляют то же самое направление луча.Thus, the fusion image generator 403 can, for a given first pixel in the generated fusion image, determine the corresponding pixels in the original images as pixels that represent the same ray direction.

Соответствующие пиксели могут соответственно быть пикселем, который представляет то же самое направление луча, но который имеет отличающиеся положения, поскольку исходные изображения могут соответствовать разным положениям.The corresponding pixels may suitably be a pixel that represents the same ray direction, but which has different positions, since the source images may correspond to different positions.

Таким образом, в принципе, генератор 403 объединенных изображений может для данного пикселя объединенного изображения определить направление луча и затем определить все пиксели на исходных изображениях, которые имеют такие же (в пределах данного требования подобия) направления луча, и считать их соответствующими пикселями.Thus, in principle, the fused image generator 403 can, for a given pixel in the fused image, determine the ray direction and then determine all pixels in the original images that have the same (within a given similarity requirement) ray directions and consider them to be corresponding pixels.

Следовательно, соответствующие пиксели будут, как правило, иметь одинаковое направление луча, но разные положения/начала луча.Therefore, the corresponding pixels will generally have the same ray direction but different ray positions/origins.

Виды из разных изображений исходных поз обзора могут быть, например, повторно дискретизированы так, чтобы соответствующие координаты изображения имели соответствующие направления луча.Views from different images of the original viewing poses can, for example, be resampled so that the corresponding image coordinates have corresponding ray directions.

Например, когда исходные виды представлены в формате частичной равнопрямогольной проекции, их повторно дискретизируют в полную версию на 360°/180°.For example, when original views are presented in partial equirectangular projection format, they are resampled into a full 360°/180° version.

Например, можно определить сферу обзора, окружающую всю исходную конфигурацию обзора.For example, you can define a viewing sphere that surrounds the entire original viewing configuration.

Эту сфера обзора можно разделить на пиксели, причем каждый пиксель имеет направление луча.This field of view can be divided into pixels, with each pixel having a ray direction.

Для данного исходного изображения каждый пиксель может быть повторно дискретизирован в представление сферы обзора путем установки значения пикселя сферы обзора для данного направления луча на значение пикселя для пикселя в исходном виде, который имеет то же самое направление луча.For a given source image, each pixel can be resampled into a viewport representation by setting the viewport pixel value for a given ray direction to the pixel value for a pixel in the source view that has the same ray direction.

Повторная дискретизация исходных изображений на представление полной поверхности сферы обзора, как правило, приведет к N частично заполненным изображениям, поскольку отдельные изображения обычно имеют ограниченные окна просмотра, где N является количеством исходных изображений.Resampling the original images into a full viewport surface representation will typically result in N partially filled images, since individual images typically have limited viewports, where N is the number of original images.

Однако окна просмотра имеют тенденцию перекрываться, и, соответственно, набор представлений поверхности сферы обзора обычно обеспечивает множество значений пикселя для любого данного направления.However, viewports tend to overlap, and accordingly a set of viewport surface representations typically provide multiple pixel values for any given direction.

Теперь генератор 403 объединенных изображений может перейти к формированию по меньшей мере одного, но, как правило, множества объединенных изображений путем выбора между соответствующими пикселями.The fused image generator 403 can now proceed to generate at least one, but typically multiple fused images by selecting between corresponding pixels.

В частности, может быть сформировано первое объединенное изображение для охвата части сцены.In particular, a first fused image may be generated to cover a portion of the scene.

Например, может быть сформировано объединенное изображение, имеющее заданный размер, для охвата определенной области пикселей в представлениях сферы обзора и описания тем самым этого участка сцены.For example, a fused image of a given size may be generated to cover a specific region of pixels in the field of view representations and thereby describe that region of the scene.

В некоторых вариантах реализации каждое из объединенных изображений может охватывать всю сцену и включать в себя всю поверхность сферы обзора.In some embodiments, each of the fused images may span the entire scene and include the entire surface of the viewing sphere.

Для каждого пикселя на первом объединенном изображении генератор 403 объединенных изображений может теперь рассмотреть соответствующие пиксели в представлениях сферы обзора и перейти к выбору пикселей.For each pixel in the first fused image, the fused image generator 403 can now consider the corresponding pixels in the viewport views and proceed to select pixels.

В частности, генератор 403 объединенных изображений может сформировать первое объединенное изображение путем выбора значения пикселя для объединенного изображения как значение пикселя для соответствующего пикселя в исходном изображении вида, для которого соответствующих пиксель представляет луч, имеющий наибольшее расстояние от центральной точки в первом направлении вдоль первой оси, перпендикулярной направлению луча для соответствующего пикселяIn particular, the fused image generator 403 may generate a first fused image by selecting a pixel value for the fused image as a pixel value for a corresponding pixel in the original image of the view for which the corresponding pixel represents a ray having the greatest distance from a center point in a first direction along a first axis, perpendicular to the ray direction for the corresponding pixel

Расстояние от центральной точки до направления луча может быть определено как расстояние между лучами центральной точки и соответствующим пикселем для пикселя объединенного изображения.The distance from the center point to the ray direction can be defined as the distance between the rays of the center point and the corresponding pixel for a pixel in the merged image.

Выбор может быть объяснен с помощью Фиг. 6, которая основана на примере круговой конфигурации исходной позы обзора, имеющей центральную точку C.The selection can be explained using FIG. 6, which is based on an example of a circular configuration of the initial viewing pose having a center point C.

В этом примере рассматривается определение пикселя объединенного изображения, имеющего направление луча rc.This example looks at identifying a pixel in a fused image that has ray direction rc.

Это направление захватывают камеры/исходные виды 1–4, и, таким образом, существуют четыре соответствующих пикселя.This direction is captured by cameras/source views 1–4, and thus there are four corresponding pixels.

Каждый из этих четырех соответствующих пикселей представляет разные позы и, соответственно, представляет лучи, начинающиеся в разных положениях, как показано.Each of these four corresponding pixels represents different poses and accordingly represents rays starting at different positions, as shown.

Соответственно, между этими лучами и лучом rc объединенного изображения существуют расстояния p1–p4 смещения, соответствующие расстоянию между центральной точкой C и лучами, если их продлить назад (до пересечения с осью 601).Accordingly, between these rays and the ray rc of the combined image there are offset distances p1-p4 corresponding to the distance between the center point C and the rays if they are extended back (to the intersection with axis 601).

На Фиг. 6 также показаны направление/ось 601, перпендикулярные лучу rc.In FIG. 6 also shows the direction/axis 601 perpendicular to the ray rc.

Теперь генератор 403 объединенных изображений может для первого объединенного изображения выбрать соответствующий пиксель, для которого расстояние луча в этом направлении является наибольшим.The fusion image generator 403 can now, for the first fusion image, select the corresponding pixel for which the ray distance in that direction is greatest.

Таким образом, в данном случае значение пикселя объединенного изображения будет выбрано как значение пикселя для камеры/вида 1, поскольку p1 является наибольшим расстоянием в этом направлении.So in this case, the pixel value of the merged image will be chosen as the pixel value for camera/view 1 since p1 is the largest distance in that direction.

Как правило, генератор 403 объединенных изображений может далее перейти к определению второго объединенного изображения путем выполнения той же самой операции, но выбирая соответствующие пиксели, которые имеют наибольшее расстояние в противоположном направлении (можно считать, что формирование первого и второго объединенных изображений может быть выполнено путем выбора наибольших положительного и отрицательного расстояний, соответственно, относительно первого направления, если расстояние измеряется как положительное, когда оно в одном направлении с осью, и отрицательное, когда оно в другом направлении).Typically, the fused image generator 403 may then proceed to determine a second fused image by performing the same operation, but selecting the corresponding pixels that have the greatest distance in the opposite direction (we can consider that generating the first and second fused images can be accomplished by selecting the largest positive and negative distances, respectively, with respect to the first direction, if the distance is measured as positive when it is in the same direction as the axis, and negative when it is in the other direction).

Таким образом, в данном случае генератор 403 объединенных изображений выберет значение пикселя объединенного изображения как значение пикселя для камеры/вида 4, поскольку p4 является наибольшим расстоянием в этом направлении.Thus, in this case, the fused image generator 403 will select the pixel value of the fused image as the pixel value for camera/view 4 since p4 is the largest distance in that direction.

Во многих вариантах реализации генератор 403 объединенных изображений может далее перейти к формированию третьего комбинированного изображения путем выполнения той же самой операции, но выбирая соответствующие пиксели, которые имеют наименьшее расстояние в любом направлении (наименьшее абсолютное расстояние).In many implementations, the fusion image generator 403 may then proceed to generate a third fusion image by performing the same operation but selecting the corresponding pixels that have the smallest distance in any direction (smallest absolute distance).

Таким образом, в данном случае генератор 403 объединенных изображений выберет значение пикселя объединенного изображения как значение пикселя для камеры/вида 3, поскольку p3 является наименьшим расстоянием.Thus, in this case, the fused image generator 403 will select the pixel value of the fused image as the pixel value for camera/view 3 since p3 is the smallest distance.

Таким образом, генератор 403 объединенных изображений может тем самым сформировать три объединенных изображения для одной и той же части сцены (и, возможно, для всей сцены).Thus, the fused image generator 403 can thereby generate three fused images for the same portion of the scene (and possibly the entire scene).

Одно из изображений будет соответствовать выбору пикселей, которые обеспечивают большую часть вида вбок сцены в одном направлении, одно, которое представляет большую часть вида вбок сцены из противоположного направления, и одно, которое представляет большую часть центрального вида сцены.One of the images will correspond to a selection of pixels that provide most of the side view of the scene in one direction, one that represents most of the side view of the scene from the opposite direction, and one that represents most of the central view of the scene.

Это может быть проиллюстрировано на Фиг. 7, на которой показаны направления обзора, выбранные из каждых вида/камеры соответственно для центрального объединенного изображения и двух боковых объединенных изображений.This can be illustrated in FIG. 7, which shows viewing directions selected from each view/camera, respectively, for the central fused image and the two side fused images.

Таким образом, получающиеся в результате изображения обеспечивают очень эффективное представление сцены, причем одно объединенное изображение обычно обеспечивает представление для объектов переднего плана, а другие два объединяются для обеспечения данных, сфокусированных на заднем плане.In this way, the resulting images provide a very efficient representation of the scene, with one fused image typically providing a representation for foreground objects and the other two fused to provide background-focused data.

В некоторых вариантах реализации генератор 403 объединенных изображений может быть выполнен с возможностью дополнительного формирования одного или более объединенных изображений путем выбора соответствующих пикселей в соответствии с направлением оси, которое перпендикулярно направлению луча, но отличается от ранее использованного направления оси.In some embodiments, the fusion image generator 403 may be configured to further generate one or more fusion images by selecting corresponding pixels according to an axis direction that is perpendicular to the beam direction, but different from the previously used axis direction.

Данный подход может подойти для непланарных конфигураций исходной позы обзора (например, трехмерных конфигураций).This approach may be suitable for non-planar configurations of the initial viewing pose (e.g., 3D configurations).

Например, для сферической конфигурации исходной позы обзора могут быть рассмотрены более двух плоскостей.For example, for a spherical configuration of the initial viewing pose, more than two planes may be considered.

Например, могут быть рассмотрены плоскости под углом 0, 60 и 120 градусов или могут быть рассмотрены две ортогональные плоскости (например, плоскости слева направо и сверху вниз).For example, planes at 0, 60, and 120 degrees may be considered, or two orthogonal planes (eg, left-to-right and top-to-bottom planes) may be considered.

В некоторых вариантах реализации объединенные изображения могут быть сформированы путем синтеза/прогнозирования вида из исходных изображений.In some implementations, the fused images may be generated by synthesizing/predicting the view from the original images.

Генератор 103 изображений может, в частности, формировать объединенные изображения, представляющие виды сцены из различных положений обзора и, в частности, из различных положений обзора, отличных от положений обзора исходных изображений.The image generator 103 may, in particular, generate fused images representing views of the scene from different viewing positions and, in particular, from different viewing positions different from the viewing positions of the original images.

Кроме того, в отличие от обычного синтеза изображений объединенное изображение формируют не для представления вида сцены из одного положения обзора/захвата, а оно может представлять сцену из разных положений обзора даже в пределах одного и того же объединенного изображения.In addition, unlike conventional image synthesis, the fused image is not generated to represent a view of a scene from a single viewing/capture position, but can represent the scene from different viewing positions even within the same fused image.

Таким образом, объединенное изображение может быть сформировано путем формирования значений пикселя для пикселей объединенного изображения посредством синтеза/прогнозирования вида из исходных изображений, но при этом значения пикселя представляют разные положения обзора.Thus, a fused image can be formed by generating pixel values for pixels in the fused image by synthesizing/predicting the view from the original images, but with the pixel values representing different viewing positions.

В частности, для данного пикселя на объединенном изображении синтез/прогнозирование вида могут быть выполнены для определения значения пикселя, соответствующего конкретной позе луча для этого пикселя.Specifically, for a given pixel in a fused image, view synthesis/prediction can be performed to determine the pixel value corresponding to a particular ray pose for that pixel.

Это можно повторить для всех пикселей объединенного изображения, но при этом по меньшей мере некоторые из пикселей имеют позы луча с отличающимся положениями.This can be repeated for all pixels in the merged image, but at least some of the pixels have different ray poses.

Например, одно объединенное изображение может обеспечивать представление сцены на 360°, соответствующее, например, поверхности сферы обзора, которая окружает всю конфигурацию исходной позы обзора.For example, a single fused image may provide a 360° view of the scene corresponding to, for example, the surface of a viewing sphere that surrounds the entire configuration of the original viewing pose.

Однако эти виды различных частей сцены могут быть представлены из разных положений в пределах одного и того же объединенного изображения.However, these views of different parts of the scene may be presented from different positions within the same merged image.

На Фиг. 8 показан пример, на котором объединенное изображение содержит пиксели, представляющие два различных положения луча (и, следовательно, положения обзора пикселя), а именно, первое начало 801 луча, которое используют для пикселей, представляющих одну полусферу, и второе начало 803 луча, представляющее другую полусферу.In FIG. 8 shows an example in which the fused image contains pixels representing two different ray positions (and therefore viewing positions of the pixel), namely, a first ray origin 801 that is used for pixels representing one hemisphere, and a second ray origin 803 representing another hemisphere.

Для каждого из этих положений/начал луча предоставляют пиксели с разными направлениями луча, как показано стрелками.For each of these beam positions/starts, pixels with different beam directions are provided, as shown by the arrows.

В данном конкретном примере конфигурация исходной позы обзора содержит восемь исходных видов (1–8) в круговом расположении.In this particular example, the initial viewing pose configuration contains eight initial views (1–8) in a circular arrangement.

Обзор каждой камеры обеспечивает только часть вида, скажем вид на 90°, но с перекрытием между видами.Each camera's view provides only part of the view, say a 90° view, but with overlap between views.

Для данного пикселя в объединенном изображении может быть связанная поза луча, а значение пикселя для этой позы может быть определено посредством синтеза/прогнозирования вида из этих исходных видов.For a given pixel in the fused image, there may be an associated ray pose, and the pixel value for that pose can be determined by synthesizing/predicting the view from these source views.

В принципе, каждый пиксель объединенного изображения может быть синтезирован по отдельности, но во многих вариантах реализации выполняют объединенный синтез для множества пикселей.In principle, each pixel of a fused image can be synthesized individually, but many implementations perform fused synthesis across multiple pixels.

Например, для первого положения 801 может быть синтезировано одно изображение на 180° из исходных изображений (например, с использованием положений 2, 1, 8, 7, 6, 5, 4), и для второго положения 803 может быть синтезировано одно изображение на 180° из исходных изображений (например, с использованием положений 6, 5, 4, 3, 2, 1, 8).For example, for the first position 801, one 180° image may be synthesized from the original images (e.g., using positions 2, 1, 8, 7, 6, 5, 4), and for the second position 803, one 180° image may be synthesized ° from the original images (for example, using positions 6, 5, 4, 3, 2, 1, 8).

Затем объединением этих изображений может быть сформировано объединенное изображение.Then, by combining these images, a merged image can be formed.

Если синтезированные по отдельности изображения перекрываются, то для формирования объединенного изображения может быть использовано объединение или смешение.If individually synthesized images overlap, fusion or blending can be used to form a combined image.

В альтернативном варианте реализации перекрывающиеся части объединенных изображений могут быть подавлены, например, путем присвоения зарезервированного цвета или значения глубины.In an alternative implementation, overlapping portions of the merged images may be suppressed, for example, by assigning a reserved color or depth value.

Тем самым повышается эффективность кодирования видео.This increases the efficiency of video encoding.

Во многих вариантах реализации одно или более объединенных изображений могут быть сформированы для представления сцены из точки обзора, обеспечивающей более боковой вид сцены.In many embodiments, one or more fused images may be formed to represent the scene from a viewpoint that provides a more lateral view of the scene.

Например, на Фиг. 8 центр окружности обзора соответствует центральной точке исходных поз обзора и центру положений начала луча для объединенного изображения.For example, in FIG. 8, the center of the viewing circle corresponds to the center point of the original viewing poses and the center of the beam origin positions for the fused image.

Однако направления луча для данного начала 801, 803 луча указывают не в преимущественно радиальном направлении, а, скорее, обеспечивают вид вбок сцены.However, the beam directions for a given beam origin 801, 803 do not point in a predominantly radial direction, but rather provide a sideways view of the scene.

В частности, в данном примере как первое начало 801 луча, так и второе начало 803 луча обеспечивают виды в направлении влево, т.е. направления луча для обоих лучей указывают влево, если смотреть на начала 801, 803 луча из центральной точки.Specifically, in this example, both the first beam start 801 and the second beam start 803 provide views in the left direction, i.e. the beam directions for both beams point to the left when looking at the beam origins 801, 803 from the center point.

Генератор 103 изображений может перейти к формированию второго объединенного изображения, которое представляет другой вид сцены, и, в частности, преимуществом является то, что он может формировать второй вид сцены, который является комплементарным первому виду, но обращен в противоположном направлении.The image generator 103 may proceed to generate a second fused image that represents a different view of the scene, and in particular, it is advantageous that it may generate a second view of the scene that is complementary to the first view but facing in the opposite direction.

Например, генератор 103 изображений может сформировать второе объединенное изображение, которое использует те же самые начала луча, но направления луча указывают в противоположном направлении.For example, image generator 103 may generate a second merged image that uses the same beam origins but the beam directions point in the opposite direction.

Например, генератор 103 изображений может сформировать второе объединенное изображение, соответствующее конфигурации, приведенной на Фиг. 9.For example, the image generator 103 may generate a second fused image corresponding to the configuration shown in FIG. 9.

Эти два изображения могут обеспечивать очень эффективное и комплементарное представление сцены, и, как правило, могут обеспечивать улучшенное представление частей заднего плана сцены.These two images can provide a very effective and complementary representation of the scene, and can generally provide an improved representation of the background portions of the scene.

Во многих вариантах реализации объединенное изображение может также включать в себя одно или более изображений, которые формируют для обеспечения более фронтального вида, например, соответствующего конфигурации, приведенной на Фиг. 10.In many embodiments, the fused image may also include one or more images that are shaped to provide a more frontal view, such as the configuration shown in FIG. 10.

Такой пример может во многих вариантах реализации обеспечить улучшенное представление передней части объектов переднего плана.Such an example may, in many implementations, provide an improved view of the front of foreground objects.

Понятно, что в разных вариантах реализации могут быть использованы разные конфигурации начал луча, и что, в частности, могут быть использованы больше начал луча.It will be understood that different beam start configurations may be used in different embodiments, and that, in particular, more beam starts may be used.

Например, на Фиг. 11 и 12 показаны примеры двух комплементарных конфигураций для формирования обращенных вбок объединенных изображений, причем начала лучей распределены на кривой (в частности, окружности), в данном случае окружающей исходную конфигурацию обзора (часто такую кривую будут выбирать в строгом соответствии с конфигурацией исходных поз обзора).For example, in FIG. 11 and 12 show examples of two complementary configurations for generating side-facing fusion images, with the origins of the rays distributed along a curve (specifically a circle), in this case surrounding the initial viewing configuration (often such a curve will be chosen strictly according to the configuration of the initial viewing poses) .

На фигурах показаны только начала и позы для части окружности/кривой, и понятно, что во многих вариантах реализации будут формировать полный сферический вид или вид на 360°.The figures only show the origins and poses for a portion of the circle/curve, and it is understood that many embodiments will generate a full spherical or 360° view.

Действительно, Фиг. 7 можно рассматривать как иллюстрацию еще одной приведенной в качестве примера конфигурации, в которой формируют три объединенных изображения на основе восьми положений луча на окружности вокруг центральной точки.Indeed, Fig. 7 can be taken as an illustration of yet another exemplary configuration in which three merged images are formed based on eight beam positions on a circle around a center point.

Для первого объединенного изображения выбирают радиальные направления окружности, для второго изображения выбирают направления луча под углом 90° вправо к радиусу и для третьего изображения выбирают направления луча под углом 90° влево к радиусу.For the first merged image, radial directions of the circle are selected, for the second image, ray directions are selected at 90° to the right of the radius, and for the third image, ray directions are selected at 90° to the left of the radius.

Такая комбинация объединенных изображений может обеспечить очень эффективное объединенное представление сцены.This combination of fused images can provide a very effective fused view of the scene.

Таким образом, в некоторых вариантах реализации генератор 103 изображений может быть выполнен с возможностью формирования значений пикселя для объединенных изображений для конкретных поз луча путем синтеза вида из исходных изображений.Thus, in some embodiments, image generator 103 may be configured to generate pixel values for fused images for specific ray poses by synthesizing the view from the original images.

Позы луча могут быть выбраны по-разному для разных объединенных изображений.Beam poses can be chosen differently for different fused images.

В частности, во многих вариантах реализации позы луча для одного изображения могут быть выбраны так, чтобы они обеспечивали вид вбок сцены из начала луча, а позы луча другого изображения могут быть выбраны так, чтобы они обеспечивали комплементарный вид вбок.Specifically, in many embodiments, the beam poses for one image may be selected to provide a side view of the scene from the origin of the beam, and the beam poses of another image may be selected to provide a complementary side view.

В частности, позы луча для первого объединенного изображения могут быть таковы, что скалярное произведение между вертикальным вектором и векторами перекрестного произведения пикселя является неотрицательным по меньшей мере для 90% (иногда 95% или даже всех) пикселей первого объединенного изображения.In particular, the ray poses for the first fused image may be such that the dot product between the vertical vector and the pixel cross product vectors is non-negative for at least 90% (sometimes 95% or even all) of the pixels in the first fused image.

Вектор перекрестного произведения пикселя для пикселя определяют как перекрестное произведение между направлением луча для пикселя и вектором из центральной точки для различных исходных поз обзора в положение луча для пикселя.The pixel-to-pixel cross product vector is defined as the cross product between the ray direction for a pixel and the vector from the center point for different initial viewing poses to the ray position for a pixel.

Центральная точка для исходных поз обзора может быть сформирована как среднее или срединное положение для исходных поз обзора.The center point for the initial viewing poses can be formed as the middle or median position for the initial viewing poses.

Например, можно усреднить по координате (например, x, y, z) каждой позы, и полученное в результате среднее значение может быть центральной точкой.For example, one could average over the coordinate (e.g., x, y, z) of each pose, and the resulting average could be the center point.

Следует отметить, что центральная точка для конфигурации не (обязательно) находится в центре наименьшей окружности/сферы, содержащей исходные позы обзора.It should be noted that the center point for the configuration is not (necessarily) located at the center of the smallest circle/sphere containing the original viewing poses.

Таким образом, вектор из центральной точки в начало луча для данного пикселя является вектором в пространстве сцены, который определяет расстояние и направление из центральной точки в положение обзора для этого пикселя.Thus, the vector from the center point to the origin of the ray for a given pixel is a vector in scene space that defines the distance and direction from the center point to the viewing position for that pixel.

Направление луча может быть представлено (любым) вектором, который имеет то же самое направление, т.е. это может быть вектор из начала луча к точке сцены, представленной пикселем (и, следовательно, может быть также вектор в пространстве сцены).The direction of a ray can be represented by (any) vector that has the same direction, i.e. this could be a vector from the origin of the ray to a point in the scene represented by the pixel (and therefore could also be a vector in scene space).

Перекрестное произведение между такими двумя векторами будет перпендикулярным к ним обоим.The cross product between such two vectors will be perpendicular to both of them.

В случае горизонтальной плоскости (в системе координат сцены) направление луча влево (если смотреть из центральной точки) приведет к вектору перекрестного произведения, который имеет направленную вверх компоненту, т.е. имеет положительную z-компоненту, где z указывает высоту.In the case of a horizontal plane (in the scene coordinate system), the direction of the ray to the left (as viewed from the center point) will result in a cross product vector that has an upward component, i.e. has a positive z component, where z indicates the height.

Вектор перекрестного произведения будут направлен вверх для любого левостороннего вида независимо от начала, например, он будет направлен вверх для всех пикселей/поз луча на Фиг. 8.The cross product vector will be upward for any left-handed view regardless of the origin, for example it will be upward for all pixels/beam poses in FIG. 8.

И наоборот, для правостороннего вида вектор перекрестного произведения будет направлен вниз для всех поз луча, например, результатом для всех пикселей/поз луча на Фиг. 9 будет отрицательная z-координата.Conversely, for a right-handed view, the cross product vector will be downward for all ray poses, such as the result for all pixels/beam poses in FIG. 9 would be a negative z-coordinate.

Скалярное произведение между вертикальным вектором в пространстве сцены и всеми векторами, имеющими положительную z-координату, будет одинаковым, в частности, оно будет положительным для указывающего вверх вертикального вектора и отрицательным для указывающего вниз вертикального вектора.The dot product between a vertical vector in scene space and all vectors that have a positive z-coordinate will be the same, specifically it will be positive for an up-pointing vertical vector and negative for a downward-pointing vertical vector.

И наоборот, для отрицательной z-координаты скалярное произведение будет отрицательным для указывающего вверх вертикального вектора и положительным для указывающего вниз вертикального вектора.Conversely, for a negative z-coordinate, the dot product will be negative for an upward-pointing vertical vector and positive for a downward-pointing vertical vector.

Соответственно, скалярное произведение будет иметь один и тот же знак для всех правосторонних поз луча и противоположный знак для всех левосторонних поз луча.Accordingly, the dot product will have the same sign for all right-handed beam poses and the opposite sign for all left-handed beam poses.

В некоторых сценариях в результате может получиться нулевой вектор или скалярное произведение (например, для полярных точек на окружности обзора), и для таких поз луча знак не будет отличаться ни от левосторонних видов, ни от правосторонних видов.In some scenarios, the result may be a null vector or dot product (for example, for polar points on the viewing circle), and for such ray poses the sign will be no different from either left-handed views or right-handed views.

Понятно, что вышеприведенные соображения справедливы также, с соответствующими поправками, в отношении трехмерного представления, например, когда начала луча расположены на сфере.It is clear that the above considerations are also valid, with appropriate amendments, in relation to a three-dimensional representation, for example, when the origins of the ray are located on a sphere.

Таким образом, в некоторых вариантах реализации по меньшей мере 90%, а в некоторых вариантах реализации по меньшей мере 95% или даже все, пиксели объединенного изображения дают скалярное произведение, которое не отличается знаком, т.е. по меньшей мере такое большое количество пикселей будут иметь вид вбок в одну и ту же сторону.Thus, in some embodiments, at least 90%, and in some embodiments, at least 95%, or even all, of the pixels in the merged image produce a dot product that does not differ in sign, i.e. at least that many pixels will have a sideways view in the same direction.

В некоторых вариантах реализации объединенные изображения могут быть сформированы так, чтобы они имели защитные полосы, или, например, некоторые конкретные краевые пиксели могут иметь конкретные обстоятельства, для которых скалярное произведение может потенциально не удовлетворять этому требованию.In some implementations, the merged images may be configured to have guard bands, or, for example, some particular edge pixels may have particular circumstances for which the dot product could potentially not satisfy this requirement.

Однако для подавляющего большинства пикселей это требование удовлетворяется, и пиксели обеспечивают соответствующие виды с боку.However, for the vast majority of pixels this requirement is satisfied and the pixels provide appropriate side views.

Кроме того, во многих вариантах реализации по меньшей мере два объединенных изображения удовлетворяют этим требованиям, но при этом знаки скалярного произведения противоположные.Additionally, in many embodiments, at least two merged images satisfy these requirements, but the signs of the dot product are opposite.

Таким образом, для одного объединенного изображения по меньшей мере 90% пикселей могут представлять правосторонний вид, а для другого объединенного изображения по меньшей мере 90% пикселей могут представлять левосторонний вид.Thus, for one fused image, at least 90% of the pixels may represent a right-handed view, and for another fused image, at least 90% of the pixels may represent a left-handed view.

Объединенные изображения могут быть сформированы для поз, которые обеспечивают особенно эффективный вид сцены.Merged images can be generated for poses that provide a particularly effective view of the scene.

Авторы изобретения поняли, что во многих сценариях особенно выгодным может быть формирование объединенных изображений для поз обзора, которые приводят к более боковому виду основной части сцены, а также, что для данной конфигурации исходных видов может быть выгодно формировать по меньшей мере некоторые виды, которые близки к крайним положениями конфигурации, а не близки к центру конфигурации.The inventors realized that in many scenarios it may be particularly advantageous to generate fused images for viewing poses that result in a more lateral view of the main portion of the scene, and also that for a given configuration of source views it may be advantageous to generate at least some views that are close to the extreme positions of the configuration, rather than close to the center of the configuration.

Таким образом, во многих вариантах реализации формируют по меньшей мере одно, и обычно по меньшей мере два, объединенных изображения для позу луча, которые близки к границе области, соответствующей конфигурации исходных поз обзора.Thus, in many embodiments, at least one, and typically at least two, fused images are generated for the beam poses that are close to the boundary of the region corresponding to the configuration of the original viewing poses.

В частности, эта область может быть областью пространства (группой или набором точек в пространстве), которая ограничена наибольшим многоугольником, который может быть образован с использованием по меньшей мере некоторых положений обзора в качестве вершин для прямых линий многоугольника.In particular, this region may be a region of space (a group or set of points in space) that is bounded by the largest polygon that can be formed using at least some of the view positions as vertices for the straight lines of the polygon.

Многоугольник может быть плоской фигурой, которая ограничена конечной цепочкой отрезков линии, замыкающихся в петлю с образованием замкнутой цепочки или контура, и он может включать в себя одномерную конфигурацию, такую как на Фиг. 2A (известную также как вырожденный многоугольник).A polygon may be a planar figure that is limited by a finite chain of line segments that loop together to form a closed chain or path, and it may include a one-dimensional configuration such as in FIG. 2A (also known as a degenerate polygon).

В случае трехмерной конфигурации область может соответствовать наибольшему возможному многограннику, образованному по меньшей мере некоторыми исходными положениями обзора.In the case of a three-dimensional configuration, the region may correspond to the largest possible polyhedron formed by at least some of the initial viewing positions.

Таким образом, область может быть наибольшим многоугольником или многогранником, который может быть образован с использованием по меньшей мере некоторых исходных положений обзора в качестве вершин для линий многоугольника или многогранника.Thus, the region may be the largest polygon or polyhedron that can be formed using at least some of the original view positions as vertices for the lines of the polygon or polyhedron.

В качестве альтернативы, область, содержащая различные позы обзора множества исходных изображений может быть наименьшей линией, окружностью или сферой, содержащей все положения обзора.Alternatively, the region containing the various viewing poses of a plurality of source images may be the smallest line, circle, or sphere containing all viewing positions.

В частности, область может быть наименьшей сферой, которая содержит все исходные положения обзора.In particular, the region may be the smallest sphere that contains all of the original view positions.

Таким образом, во многих вариантах реализации позы луча по меньшей мере одного из объединенных изображений выбирают близко к границе области, содержащей конфигурацию исходной позы обзора.Thus, in many embodiments, the beam pose of at least one of the fused images is selected close to the boundary of the region containing the original viewing pose configuration.

Во многих вариантах реализации по меньшей мере одно положение луча объединенных изображений определяют на расстоянии менее первого расстояния от границы области, причем это первое расстояние не больше 50%, или во многих случаях 25% или 10%, от максимального (внутреннего) расстояния между точками на границе области.In many embodiments, at least one beam position of the fused images is determined to be less than a first distance from the boundary of the region, wherein the first distance is no more than 50%, or in many cases 25% or 10%, of the maximum (internal) distance between points on border of the region.

Таким образом, минимальное расстояние от положения позы обзора до границы может быть не более 50%, 25% или 10% от максимального расстояния до границы.Thus, the minimum distance from the viewing pose position to the boundary can be no more than 50%, 25%, or 10% of the maximum distance to the boundary.

Это может быть проиллюстрировано с помощью Фиг. 13, на которой показаны исходные точки обзора, указанные черными точками.This can be illustrated using FIG. 13, which shows the original viewpoints indicated by the black dots.

На Фиг. 13 также показана область, соответствующая наименьшей сфере, которая включает в себя эти точки обзора.In FIG. 13 also shows the area corresponding to the smallest sphere that includes these viewpoints.

В данном примере конфигурация обзора является планарной двумерной конфигурацией, и рассмотрение сферы сводится к рассмотрению окружности 1301.In this example, the viewing configuration is a planar two-dimensional configuration, and viewing a sphere is reduced to viewing a circle 1301.

На Фиг. 13 также показана поза 1303 луча для объединенного изображения, которая близка к границе сферы/окружности/области.In FIG. 13 also shows the ray pose 1303 for the merged image, which is close to the sphere/circle/region boundary.

В частности, минимальное расстояние dmin до границы/края области намного меньше (около 10%) максимального расстояния dmax до границы/края области.In particular, the minimum distance d min to the border/edge of the region is much smaller (about 10%) than the maximum distance d max to the border/edge of the region.

В некоторых вариантах реализации позы луча объединенного изображения могут быть определены на расстоянии меньше первого расстояния от границы области, причем первое расстояние не больше 20%, или частот даже 10% или 5%, от максимального расстояния между двумя исходными позами обзора.In some embodiments, the beam poses of the fused image may be determined at a distance less than a first distance from the region boundary, with the first distance being no more than 20%, or even 10% or 5%, of the maximum distance between the two original viewing poses.

В данном примере, где область определяют как наименьшую сферу/окружность, содержащую все исходные позы обзора, максимальное расстояние между двумя позами обзора равно диаметры сферы/окружности, и, следовательно, поза обзора объединенного изображения может быть выбрана так, чтобы минимальное расстояние dmin удовлетворяло этому требованию.In this example, where the region is defined as the smallest sphere/circle containing all the original viewing poses, the maximum distance between two viewing poses is equal to the diameters of the sphere/circle, and hence the viewing pose of the merged image can be chosen such that the minimum distance d min satisfies this requirement.

В некоторых вариантах реализации позы луча объединенного изображения могут быть определены по меньшей мере на минимальном расстоянии от центральной точки различных поз обзора, причем минимальное расстояние составляет по меньшей мере 50%, или частот даже 75% или 90%, от расстояния от центральной точки до границы вдоль линии, проходящей через центральную точку и позу луча.In some embodiments, the beam poses of the fused image may be determined to be at least a minimum distance from the center point of the various viewing poses, where the minimum distance is at least 50%, or as often as 75% or 90%, of the distance from the center point to the boundary along a line passing through the center point and pose of the beam.

В некоторых вариантах реализации две позы обзора для объединенных изображений выбирают так, чтобы расстояние между ними составляло по меньшей мере 80%, а иногда даже 90% или 95%, от максимального расстояния между двумя точками пересечения границы линией, проходящей через эти две позы обзора.In some embodiments, the two viewing poses for the fused images are selected such that the distance between them is at least 80%, and sometimes even 90% or 95%, of the maximum distance between two intersection points of a line passing through the two viewing poses.

Например, если линия проведена через две позы, расстояние между этими двумя позами составляет по меньшей мере 80%, 90% или 95% от расстояния между точками, в которых линия пересекает окружность.For example, if a line is drawn through two poses, the distance between the two poses is at least 80%, 90%, or 95% of the distance between the points at which the line intersects the circle.

В некоторых вариантах реализации максимальное расстояние между двумя позами луча первого объединенного изображения составляет по меньшей мере 80% от максимального расстояния между точками границы области, содержащей различные позы обзора множества исходных изображений.In some embodiments, the maximum distance between two ray poses of the first fused image is at least 80% of the maximum distance between boundary points of a region containing different viewing poses of the plurality of source images.

Авторы изобретения поняли, что подход с формированием объединенных изображений для положений, близких к границе/краю области, содержащей исходные позы обзора, может быть особенно выгодным, поскольку это обычно обеспечивает больше информации об объектах заднего плана в сцене.The inventors have realized that the approach of generating fused images for positions close to the border/edge of the region containing the original viewing poses can be particularly advantageous since it typically provides more information about background objects in the scene.

Большинство данных заднего плана обычно захватывают камерами или в областях изображения, которые в основном удалены больше вбок по сравнению с центральной точкой обзора.Most background data is usually captured by cameras or in areas of the image that are generally more to the side compared to the central viewpoint.

Это можно выгодно объединить с более близким к центру объединенным изображением, поскольку оно обычно обеспечивает улучшенную информацию об изображения для объектов переднего плана.This can be advantageously combined with a more centrally fused image since it typically provides improved image information for foreground objects.

Во многих вариантах реализации генератор 409 сигнала изображения может быть выполнен с возможностью дополнительного включения метаданных для формируемых данных изображения.In many implementations, the image signal generator 409 may be configured to optionally include metadata for the generated image data.

В частности, генератор 403 объединенных изображений может формировать данные о происхождении для объединенных изображений, причем данные о происхождении указывают, какое из исходных изображений является источником для отдельных пикселей на объединенных изображениях.In particular, the fusion image generator 403 may generate provenance data for the fused images, wherein the provenance data indicates which of the original images is the source for individual pixels in the fused images.

После этого генератор 409 сигнала изображения может включать в себя эти данные в формируемый сигнал изображения.The image signal generator 409 may then include this data in a generated image signal.

Во многих вариантах реализации генератор 409 сигнала изображения может включать в себя данные исходных поз обзора, указывающие позы обзора для исходных изображений.In many embodiments, the image signal generator 409 may include source viewing pose data indicating viewing poses for the source images.

В частности, эти данные могут включать в себя данные, определяющие положение и направление каждого исходного изображения/вида.In particular, this data may include data defining the position and direction of each source image/view.

Сигнал изображения может, соответственно, содержать метаданные, которые указывают, возможно, отдельно для каждого пикселя, положение и направление, для которого предоставляют значения пикселя, т.е. указание позы луча.The image signal may accordingly comprise metadata which indicates, possibly on a per-pixel basis, the position and direction for which the pixel values are provided, i.e. indicating the pose of the beam.

Соответственно, приемник 500 сигнала изображения может быть выполнен с возможностью обработки этих данных для выполнения, например, синтеза вида.Accordingly, the image signal receiver 500 may be configured to process this data to perform, for example, view synthesis.

Например, для каждого пикселя трех видов, формируемых путем выбора соответствующих пикселей, метаданные могут содержать указание идентификатора исходного вида.For example, for each pixel of three views formed by selecting the corresponding pixels, the metadata may include an indication of the source view identifier.

Это может привести к трем картам меток - одной для центрального вида и двух для боковых видов.This can result in three cue maps - one for the central view and two for the side views.

После этого метки могут быть привязаны к конкретным данным позы обзора, содержащим, например, оптику камеры и геометрию многокамерной установки.The labels can then be associated with specific viewing pose data containing, for example, camera optics and multi-camera setup geometry.

Понятно, что в вышеприведенном описании варианты реализации настоящего изобретения изложены для ясности со ссылкой на разные функциональные схемы, блоки и процессоры.It will be understood that in the foregoing description, embodiments of the present invention are set forth for clarity with reference to different functional circuits, blocks, and processors.

Однако понятно, что может быть использовано любое подходящее распределение функциональных возможностей между разными функциональными схемами, блоками или процессорами без ущерба для настоящего изобретения.However, it is understood that any suitable distribution of functionality between different functional circuits, blocks or processors can be used without prejudice to the present invention.

Например, показанные функциональные возможности, подлежащие осуществлению отдельными процессорами или контроллерами, могут быть осуществлены одним и тем же процессором или контроллерами.For example, functionality shown to be implemented by separate processors or controllers may be implemented by the same processor or controllers.

Поэтому ссылки на конкретные функциональные блоки или схемы должны рассматриваться только как ссылки на подходящие средства для обеспечения описываемых функциональных возможностей, а не как указание на строгую логическую или физическую структуру или организацию.Therefore, references to specific functional blocks or diagrams should be considered only as references to suitable means to provide the functionality described, and not as an indication of a strict logical or physical structure or organization.

Настоящее изобретение может быть реализовано в любой подходящей форме, включая аппаратные средства, программное обеспечение, прошивку или любую их комбинацию.The present invention may be implemented in any suitable form, including hardware, software, firmware, or any combination thereof.

Настоящее изобретение необязательно может быть реализовано, по меньшей мере частично, в виде компьютерного программного обеспечения, выполняемого на одном или более процессорах и/или цифровых процессорах сигналов.Optionally, the present invention may be implemented, at least in part, in the form of computer software running on one or more processors and/or digital signal processors.

Элементы и компоненты варианта реализации настоящего изобретения могут быть физически, функционально и логически реализованы любым подходящим образом.The elements and components of an embodiment of the present invention may be physically, functionally, and logically implemented in any suitable manner.

В действительности функциональные возможности могут быть реализованы в одном блоке, в множестве блоков или как часть других функциональных блоков.In reality, functionality may be implemented in a single block, in multiple blocks, or as part of other functional blocks.

В силу этого настоящее изобретение может быть реализовано в одном блоке или может быть физически или функционально распределено между разными блоками, схемами и процессорами.Therefore, the present invention may be implemented in a single block or may be physically or functionally distributed among different blocks, circuits and processors.

Хотя настоящее изобретение было описано в связи с некоторыми вариантами реализации, это не следует рассматривать как ограничение конкретной формой, изложенной в настоящем документе.Although the present invention has been described in connection with certain embodiments, this should not be construed as limiting it to the particular form set forth herein.

Напротив, объем настоящего изобретения ограничен только прилагаемой формулой изобретения.On the contrary, the scope of the present invention is limited only by the appended claims.

Кроме того, хотя может показаться, что признак описан в связи с конкретными вариантами реализации, специалисту в данной области понятно, что различные признаки описанных вариантов реализации могут быть объединены в соответствии с настоящим изобретением.In addition, although it may appear that a feature is described in connection with specific embodiments, one skilled in the art will understand that various features of the described embodiments can be combined in accordance with the present invention.

В формуле изобретения термин «содержащий/включающий» не исключает присутствия других элементов или этапов.In the claims, the term “comprising/comprising” does not exclude the presence of other elements or steps.

Кроме того, хотя множество средств, элементов, схем или этапов способа перечислены по отдельности, они могут быть реализованы, например, с помощью одной схемы, блока или процессора.In addition, although multiple means, elements, circuits, or method steps are listed separately, they may be implemented, for example, by a single circuit, block, or processor.

Далее, хотя отдельные признаки могут быть включены в разные пункты формулы изобретения, они, возможно, могут быть эффективно объединены, а включение в разные пункты формулы изобретения не означает, что комбинация признаков является неосуществимой и/или невыгодной.Further, although individual features may be included in different claims, they may be effectively combined, and inclusion in different claims does not mean that the combination of features is infeasible and/or disadvantageous.

Кроме того, включение признака в одну категорию пунктов формулы изобретения не означает ограничения этой категорией, а, напротив, указывает на то, что данный признак в равной степени может быть применен к другим категориям пунктов изобретения, когда это уместно.In addition, the inclusion of a feature in one category of claims does not imply limitation to that category, but, on the contrary, indicates that the feature can equally be applied to other categories of claims when appropriate.

Кроме того, порядок признаков в формуле изобретения не означает конкретного порядка, в котором эти признаки должны прорабатываться, и, в частности, порядок отдельных этапов в формуле изобретения на способ, не означает, что этапы должны выполняться в данном порядке.In addition, the order of features in a claim does not imply the specific order in which those features must be processed, and, in particular, the order of individual steps in a method claim does not mean that the steps must be performed in that order.

Напротив, этапы могут выполняться в любом подходящем порядке.Instead, the steps may be performed in any suitable order.

Кроме того, упоминания в единственном числе не исключают множества.Moreover, references in the singular do not exclude the plural.

Поэтому ссылки с использованием средств указания единственного числа, прилагательных в единственном числе «первый», «второй» и т.д. не исключают множества.Therefore, references using singular means, singular adjectives “first”, “second”, etc. do not exclude the multitude.

Ссылочные позиции в формуле изобретения приведены исключительно в качестве уточняющего примера и не должны трактоваться как ограничивающие объем формулы изобретения каким-либо образом.Reference numerals in the claims are provided solely by way of clarifying example and should not be construed as limiting the scope of the claims in any way.

Claims (39)

1. Устройство для формирования сигнала изображения, содержащее:1. A device for generating an image signal, containing: приемник (401) для приема множества исходных изображений, представляющих сцену из разных поз обзора, причем поза обзора содержит положение обзора и направление обзора;a receiver (401) for receiving a plurality of source images representing a scene from different viewing poses, the viewing pose comprising a viewing position and a viewing direction; генератор (403) объединенных изображений для формирования множества объединенных изображений из исходных изображений, причем каждое объединенное изображение получают из набора по меньшей мере из двух исходных изображений множества исходных изображений, каждый соответствующий пиксель объединенного изображения представляет свойство сцены в точке пересечения соответствующего луча со сценой, причем луч имеет положение начала и направление, которые вместе определяют позу луча, и причем каждое объединенное изображение включает в себя по меньшей мере два пикселя, представляющих позы луча для различных соответствующих положений начала позы луча;a fused image generator (403) for generating a plurality of fused images from the source images, each fused image being obtained from a set of at least two source images of the plurality of source images, each corresponding pixel of the fused image representing a property of the scene at the point of intersection of the corresponding ray with the scene, wherein a ray has an origin position and a direction that together define a ray pose, and wherein each merged image includes at least two pixels representing ray poses for various corresponding ray pose origin positions; средство (405) оценки для определения мер качества прогнозирования для элементов множества исходных изображений, причем мера качества прогнозирования для элемента первого исходного изображения указывает разницу между значениями пикселя в элементе и прогнозируемыми значениями пикселя в элементе, а прогнозируемые значения пикселя являются значениями пикселя, полученными в результате прогнозирования значений пикселя в элементе на основе множества объединенных изображений;evaluation means (405) for determining prediction quality measures for elements of the plurality of source images, wherein the prediction quality measure for an element of the first source image indicates the difference between pixel values in the element and predicted pixel values in the element, and the predicted pixel values are pixel values obtained as a result predicting pixel values in an element based on the plurality of merged images; определитель (407) для определения сегментов исходных изображений, содержащих элементы, для которых мера качества прогнозирования указывает разницу выше порогового значения; иa qualifier (407) for determining segments of source images containing elements for which the prediction quality measure indicates a difference above a threshold value; And генератор (409) сигнала изображения для формирования сигнала изображения, содержащего данные изображения, представляющие объединенные изображения, и данные изображения, представляющие сегменты исходных изображений.an image signal generator (409) for generating an image signal containing image data representing the merged images and image data representing segments of the original images. 2. Устройство по п. 1, в котором генератор (403) объединенных изображений выполнен с возможностью формирования по меньшей мере первого объединенного изображения множества объединенных изображений посредством синтеза вида пикселей первого объединенного изображения из множества исходных изображений, причем каждый пиксель первого объединенного изображения представляет сцену для позы луча, а позы луча для первого изображения включают в себя позы луча для по меньшей мере двух различных положений начала позы луча.2. The apparatus of claim 1, wherein the fused image generator (403) is configured to generate at least a first fused image of the plurality of fused images by synthesizing the appearance of pixels of the first fused image from the plurality of source images, wherein each pixel of the first fused image represents a scene for beam poses, and the beam poses for the first image include beam poses for at least two different beam pose start positions. 3. Устройство по п. 2, в котором скалярное произведение между вертикальным вектором и векторами перекрестного произведения пикселя является неотрицательным по меньшей мере для 90% пикселей первого объединенного изображения, причем вектор перекрестного произведения пикселя для пикселя является перекрестным произведением между направлением позы луча для пикселя и вектором из центральной точки для различных поз обзора в положение начала позы луча для пикселя.3. The apparatus of claim 2, wherein the dot product between the vertical vector and the pixel cross product vectors is non-negative for at least 90% of the pixels of the first merged image, wherein the pixel cross product vector for the pixel is the cross product between the ray pose direction for the pixel and vector from the center point for different viewing poses to the position of the beginning of the ray pose for the pixel. 4. Устройство по п. 3, в котором генератор (403) объединенных изображений выполнен с возможностью формирования второго объединенного изображения множества объединенных изображений посредством синтеза вида пикселей второго объединенного изображения из множества исходных изображений, причем каждый пиксель второго объединенного изображения представляет сцену для позы луча, а позы луча для второго изображения включают в себя позы луча для по меньшей мере двух различных положений начала позы луча; и4. The apparatus of claim 3, wherein the fused image generator (403) is configured to generate a second fused image of the plurality of fused images by synthesizing the appearance of pixels of the second fused image from the plurality of original images, wherein each pixel of the second fused image represents a scene for a ray pose, and the beam poses for the second image include beam poses for at least two different beam pose start positions; And при этом скалярное произведение между вертикальным вектором и векторами перекрестного произведения пикселя является неположительными по меньшей мере для 90% пикселей второго объединенного изображения.wherein the dot product between the vertical vector and the pixel cross product vectors is non-positive for at least 90% of the pixels of the second fused image. 5. Устройство по п. 2, в котором позы луча первого объединенного изображения выбраны так, чтобы они были близкими к границе области, содержащей различные позы обзора множества исходных изображений.5. The apparatus of claim 2, wherein the ray poses of the first merged image are selected to be close to the boundary of a region containing different viewing poses of the plurality of source images. 6. Устройство по п. 2 или 3, в котором каждая из поз луча первого объединенного изображения определена на расстоянии меньше первого расстояния от границы области, содержащей различные позы обзора множества исходных изображений, причем первое расстояние составляет не более 50% от максимального внутреннего расстояния между точками на границе.6. The device according to claim 2 or 3, wherein each of the ray poses of the first combined image is defined at a distance less than the first distance from the boundary of the region containing various viewing poses of the plurality of source images, and the first distance is no more than 50% of the maximum internal distance between points on the border. 7. Устройство по любому предыдущему пункту, в котором генератор (403) объединенных изображений выполнен с возможностью для каждого пикселя первого объединенного изображения множества объединенных изображений:7. The apparatus of any preceding claim, wherein the fused image generator (403) is configured to, for each pixel of the first fused image, of a plurality of fused images: определения соответствующего пикселя в каждом из исходных изображений вида, для которых соответствующий пиксель присутствует, причем соответствующий пиксель является пикселем, который представляет то же самое направление луча, что и пиксель первого объединенного изображения;determining a corresponding pixel in each of the source images of the view for which the corresponding pixel is present, the corresponding pixel being a pixel that represents the same ray direction as a pixel of the first merged image; выбора значения пикселя для пикселя первого объединенного изображения в качестве значения пикселя соответствующего пикселя в исходном изображении вида, для которого соответствующий пиксель представляет луч, имеющий наибольшее расстояние от центральной точки для различных поз обзора, причем это наибольшее расстояние определяют в первом направлении вдоль первой оси, перпендикулярной направлению луча для соответствующего пикселя.selecting a pixel value for a pixel of the first merged image as the pixel value of a corresponding pixel in the original image of the view for which the corresponding pixel represents a ray having a greatest distance from a center point for various viewing poses, which greatest distance is determined in a first direction along a first axis perpendicular to ray direction for the corresponding pixel. 8. Устройство по п. 7, в котором определение соответствующих пикселей включает повторную дискретизацию каждого исходного изображения в представление изображения, представляющего по меньшей мере часть поверхности сферы обзора, окружающей позы обзора, и определение соответствующих пикселей как пикселей, имеющих то же самое положение в представлении изображения.8. The apparatus of claim 7, wherein determining the corresponding pixels includes resampling each source image into an image representation representing at least a portion of the surface of a viewing sphere surrounding the viewing poses, and determining the corresponding pixels as pixels having the same position in the representation Images. 9. Устройство по п. 7 или 8, в котором генератор (403) объединенных изображений выполнен с возможностью для каждого пикселя второго объединенного изображения:9. The device according to claim 7 or 8, in which the fused image generator (403) is configured to, for each pixel of the second fused image: выбора значения пикселя для пикселя во втором объединенном изображении в качестве значения пикселя соответствующего пикселя в исходном изображении вида, для которого соответствующий пиксель представляет луч, имеющий наибольшее расстояние от центральной точки в направлении, противоположном первому направлению.selecting a pixel value for a pixel in the second merged image as a pixel value of a corresponding pixel in the original image of the view for which the corresponding pixel represents a ray having the greatest distance from the center point in a direction opposite to the first direction. 10. Устройство по любому из пп. 7-9, в котором генератор (403) объединенных изображений выполнен с возможностью:10. Device according to any one of paragraphs. 7-9, in which the fusion image generator (403) is configured to: для каждого пикселя третьего объединенного изображения:for each pixel of the third merged image: выбора значения пикселя для пикселя в третьем объединенном изображении в качестве значения пикселя соответствующего пикселя в исходном изображении вида, для которого соответствующий пиксель представляет луч, имеющий наименьшее расстояние от центральной точки.selecting a pixel value for a pixel in the third merged image as a pixel value of a corresponding pixel in the original image of the view for which the corresponding pixel represents a ray having the shortest distance from the center point. 11. Устройство по любому из пп. 7-10, в котором генератор (403) объединенных изображений выполнен с возможностью:11. Device according to any one of paragraphs. 7-10, in which the fusion image generator (403) is configured to: для каждого пикселя в четвертом объединенном изображении:for each pixel in the fourth merged image: выбора значения пикселя для пикселя в четвертом объединенном изображении в качестве значения пикселя соответствующего пикселя в исходном изображении вида, для которого соответствующий пиксель представляет луч, имеющий наибольшее расстояние от центральной точки во втором направлении вдоль второй оси, перпендикулярной направлению луча для соответствующего пикселя, причем первая ось и вторая ось имеют разные направления.selecting a pixel value for a pixel in the fourth merged image as the pixel value of a corresponding pixel in the original image of the view for which the corresponding pixel represents a ray having the greatest distance from a center point in a second direction along a second axis perpendicular to the direction of the ray for the corresponding pixel, wherein the first axis and the second axis have different directions. 12. Устройство по любому из пп. 7-11, в котором генератор (403) объединенных изображений выполнен с возможностью формирования данных о происхождении для первого объединенного изображения, причем данные о происхождении указывают, какое из объединенных изображений является источником для каждого пикселя первого объединенного изображения; а генератор (409) сигнала изображения выполнен с возможностью включения данных о происхождении в сигнал изображения.12. Device according to any one of paragraphs. 7-11, wherein the fused image generator (403) is configured to generate provenance data for the first fused image, wherein the provenance data indicates which of the fused images is the source for each pixel of the first fused image; and the image signal generator (409) is configured to include origin data in the image signal. 13. Устройство по любому предыдущему пункту, в котором генератор (403) сигнала изображения выполнен с возможностью включения данных исходных поз обзора в сигнал изображения, причем данные исходных поз обзора указывают различные позы обзора для исходных изображений.13. The apparatus of any preceding claim, wherein the image signal generator (403) is configured to include source viewing pose data in the image signal, wherein the source viewing pose data indicates different viewing poses for the source images. 14. Устройство для приема сигнала изображения, содержащее: приемник (501) для приема сигнала изображения, содержащего:14. A device for receiving an image signal, comprising: a receiver (501) for receiving an image signal containing: множество объединенных изображений, причем каждое объединенное изображение представляет данные изображения, полученные из набора по меньшей мере из двух исходных изображений множества исходных изображений, представляющих сцену из различных поз обзора, причем поза обзора содержит положение обзора и направление обзора, каждый соответствующий пиксель объединенного изображения представляет свойство сцены в точке пересечения соответствующего луча со сценой, причем луч имеет положение начала и направление, которые вместе определяют позу луча, и причем каждое объединенное изображение включает в себя по меньшей мере два различных пикселя, представляющих позы луча для различных соответствующих положений начала позы луча;a plurality of fused images, each fused image representing image data derived from a set of at least two source images of a plurality of source images representing a scene from different viewing poses, wherein the viewing pose comprises a viewing position and a viewing direction, each corresponding pixel of the fused image representing a property scenes at the point of intersection of the corresponding ray with the scene, wherein the ray has an origin position and a direction that together define a ray pose, and wherein each merged image includes at least two different pixels representing ray poses for different corresponding ray pose origin positions; данные изображения для набора сегментов множества исходных изображений, причем сегмент для первого исходного изображения содержит по меньшей мере один пиксель первого исходного изображения, для которого мера качества прогнозирования, относящаяся к прогнозированию значений пикселя в сегменте на основе множества объединенных изображений, ниже порогового значения; иimage data for a set of segments of a plurality of source images, wherein the segment for the first source image contains at least one pixel of the first source image for which a measure of prediction quality related to predicting pixel values in the segment based on the plurality of merged images is below a threshold value; And процессор (503) для обработки сигнала данных.a processor (503) for processing the data signal. 15. Способ формирования сигнала изображения, включающий:15. A method for generating an image signal, including: прием множества исходных изображений, представляющих сцену из разных поз обзора, причем поза обзора содержит положение обзора и направление обзора;receiving a plurality of source images representing the scene from different viewing poses, the viewing pose comprising a viewing position and a viewing direction; формирование множества объединенных изображений из исходных изображений, причем каждое объединенное изображение получают из набора по меньшей мере из двух исходных изображений множества исходных изображений, каждый соответствующий пиксель объединенного изображения представляет свойство сцены в точке пересечения соответствующего луча со сценой, причем луч имеет положение начала и направление, которые вместе определяют позу луча, и причем каждое объединенное изображение включает в себя по меньшей мере два различных пикселя, представляющих позы луча для различных соответствующих положений начала позы луча;generating a plurality of fused images from the source images, each fused image being derived from a set of at least two source images of the plurality of source images, each corresponding pixel of the fused image representing a property of the scene at the point of intersection of the corresponding ray with the scene, the ray having an origin position and a direction, which together define a beam pose, and wherein each combined image includes at least two different pixels representing beam poses for different corresponding beam pose origin positions; определение мер качества прогнозирования для элементов множества исходных изображений, причем мера качества прогнозирования для элемента первого исходного изображения указывает разницу между значениями пикселя в элементе и прогнозируемыми значениями пикселя в элементе, а прогнозируемые значения пикселя являются значениями пикселя, полученными в результате прогнозирования значений пикселя в элементе на основе множества объединенных изображений;determining prediction quality measures for elements of the plurality of source images, wherein the prediction quality measure for an element of the first source image indicates the difference between pixel values in the element and predicted pixel values in the element, and the predicted pixel values are pixel values obtained by predicting pixel values in the element on based on multiple merged images; определение сегментов исходных изображений, содержащих элементы, для которых мера качества прогнозирования указывает разницу выше порогового значения; иidentifying segments of source images containing elements for which the prediction quality measure indicates a difference above a threshold value; And формирование сигнала изображения, содержащего данные изображения, представляющие объединенные изображения, и данные изображения, представляющие сегменты исходных изображений.generating an image signal containing image data representing the merged images and image data representing segments of the original images. 16. Способ обработки сигнала изображения, включающий:16. A method for processing an image signal, including: прием сигнала изображения, содержащего:receiving an image signal containing: множество объединенных изображений, причем каждое объединенное изображение представляет данные изображения, полученные из набора по меньшей мере из двух исходных изображений множества исходных изображений, представляющих сцену из различных поз обзора, причем поза обзора содержит положение обзора и направление обзора, каждый соответствующий пиксель объединенного изображения представляет свойство сцены в точке пересечения соответствующего луча со сценой, причем луч имеет положение начала и направление, которые вместе определяют позу луча, и причем каждое объединенное изображение включает в себя по меньшей мере два пикселя, представляющих позы луча для различных соответствующих положений начала позы луча; данные изображения для набора сегментов множества исходных изображений, причем сегмент для первого исходного изображения содержит по меньшей мере один пиксель первого исходного изображения, для которого мера качества прогнозирования, относящаяся к прогнозированию значений пикселя в сегменте на основе множества объединенных изображений, ниже порогового значения; и обработку сигнала изображения.a plurality of fused images, each fused image representing image data derived from a set of at least two source images of a plurality of source images representing a scene from different viewing poses, wherein the viewing pose comprises a viewing position and a viewing direction, each corresponding pixel of the fused image representing a property scenes at the point of intersection of the corresponding ray with the scene, wherein the ray has an origin position and a direction that together define a ray pose, and wherein each merged image includes at least two pixels representing ray poses for various corresponding ray pose origin positions; image data for a set of segments of a plurality of source images, wherein the segment for the first source image contains at least one pixel of the first source image for which a measure of prediction quality related to predicting pixel values in the segment based on the plurality of merged images is below a threshold value; and image signal processing.
RU2021130328A 2019-03-19 2020-02-14 Image signal representing scene RU2817803C2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP19163678.6 2019-03-19

Publications (2)

Publication Number Publication Date
RU2021130328A RU2021130328A (en) 2023-04-19
RU2817803C2 true RU2817803C2 (en) 2024-04-22

Family

ID=

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1465115A3 (en) * 2003-03-14 2005-09-21 British Broadcasting Corporation Method and apparatus for generating a desired view of a scene from a selected viewpoint
WO2007140638A1 (en) * 2006-06-02 2007-12-13 Eidgenössische Technische Hochschule Zürich Method and system for generating a 3d representation of a dynamically changing 3d scene
US20110158507A1 (en) * 2009-12-28 2011-06-30 Tsinghua University Method for vision field computing
EP2765774A1 (en) * 2013-02-06 2014-08-13 Koninklijke Philips N.V. System for generating an intermediate view image
WO2017204172A1 (en) * 2016-05-25 2017-11-30 Canon Kabushiki Kaisha Method and apparatus for generating a virtual image from a viewpoint selected by the user, from a camera array with default parameters associated to the selected type of sport event
EP3441788A1 (en) * 2017-08-08 2019-02-13 Koninklijke Philips N.V. Apparatus and method for generating a representation of a scene

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1465115A3 (en) * 2003-03-14 2005-09-21 British Broadcasting Corporation Method and apparatus for generating a desired view of a scene from a selected viewpoint
EP1798691A3 (en) * 2003-03-14 2009-09-30 British Broadcasting Corporation Method and apparatus for generating a desired view of a scene from a selected viewpoint
WO2007140638A1 (en) * 2006-06-02 2007-12-13 Eidgenössische Technische Hochschule Zürich Method and system for generating a 3d representation of a dynamically changing 3d scene
US20110158507A1 (en) * 2009-12-28 2011-06-30 Tsinghua University Method for vision field computing
EP2765774A1 (en) * 2013-02-06 2014-08-13 Koninklijke Philips N.V. System for generating an intermediate view image
WO2017204172A1 (en) * 2016-05-25 2017-11-30 Canon Kabushiki Kaisha Method and apparatus for generating a virtual image from a viewpoint selected by the user, from a camera array with default parameters associated to the selected type of sport event
EP3441788A1 (en) * 2017-08-08 2019-02-13 Koninklijke Philips N.V. Apparatus and method for generating a representation of a scene

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WANG JIHENG и др. Quality assessment of multi-view-plus-depth images. 2017 IEEE International Conference on Multimedia and Expo (ICME), 10-14 июля 2017, документ доступен по адресу: https://ece.uwaterloo.ca/~z70wang/publications/ICME17.pdf. *

Similar Documents

Publication Publication Date Title
US20180190007A1 (en) Stereoscopic rendering using raymarching and a virtual view broadcaster for such rendering
JP2010045776A (en) Method and system for rendering image, and computer program therefor
KR102641527B1 (en) image composition
JP7191079B2 (en) Apparatus and method for generating a tiled three-dimensional image representation of a scene
CN111602403B (en) Apparatus and method for generating image data bit stream
JP7480163B2 (en) Image depth map processing
JP7479386B2 (en) An image signal representing a scene
RU2817803C2 (en) Image signal representing scene
EP3932081B1 (en) Apparatus and method of generating an image signal
US20220174259A1 (en) Image signal representing a scene
JP7493496B2 (en) Image Composition
US11823323B2 (en) Apparatus and method of generating an image signal
KR20210119476A (en) Creation and processing of image characteristic pixel structures