WO2018131803A1 - Method and apparatus for transmitting stereoscopic video content - Google Patents

Method and apparatus for transmitting stereoscopic video content Download PDF

Info

Publication number
WO2018131803A1
WO2018131803A1 PCT/KR2017/014742 KR2017014742W WO2018131803A1 WO 2018131803 A1 WO2018131803 A1 WO 2018131803A1 KR 2017014742 W KR2017014742 W KR 2017014742W WO 2018131803 A1 WO2018131803 A1 WO 2018131803A1
Authority
WO
WIPO (PCT)
Prior art keywords
packing
regions
region
information
image
Prior art date
Application number
PCT/KR2017/014742
Other languages
French (fr)
Korean (ko)
Inventor
최병두
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020170171492A external-priority patent/KR102503342B1/en
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to EP17891098.0A priority Critical patent/EP3570540A4/en
Priority to US16/477,102 priority patent/US10855968B2/en
Priority to CN201780082778.3A priority patent/CN110463196B/en
Publication of WO2018131803A1 publication Critical patent/WO2018131803A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras

Definitions

  • the present disclosure relates to a method and apparatus for packing data of stereoscopic omni-directional video.
  • the Internet has evolved from a human-centered connection network where humans create and consume information, and an Internet of Things (IoT) network that exchanges and processes information among distributed components such as things.
  • IoT Internet of Things
  • IoE Internet of Everything
  • IoT Internet Technology
  • IoT Internet Technology
  • contents for implementing IoT are also evolving.
  • HD high definition
  • UHD ultrahigh definition television
  • HD ultrahigh definition television
  • HD high dynamic range
  • VR virtual reality
  • the fundamental foundation of a VR system is to monitor the user so that the user can use any kind of controller to provide feedback input to the content display device or processing unit, and that device or unit processes that input and adjusts the content accordingly. This is a system that enables interaction.
  • Basic configurations within the VR ecosystem include, for example, head mounted display (HMD), wireless, mobile VR, TVs, CA automatic virtual environments (CA VE), peripherals and other controllers for providing input to haptics (VR).
  • HMD head mounted display
  • CA VE CA automatic virtual environments
  • VR peripherals and other controllers for providing input to haptics
  • next-generation high efficiency video coding (HEVC) codec which can be specifically designed for 3D, 360-degree content for capturing, encoding and transmitting 360-degree video content, which is performed to construct VR content. I'm facing a challenge.
  • HEVC next-generation high efficiency video coding
  • the present disclosure proposes a method and apparatus for packing data of stereo omni-directional video.
  • the present disclosure also proposes a trapezoid-based region-wise packing method.
  • the present disclosure proposes a packing method of an omnidirectional fisheye image.
  • a method of packing stereoscopic video content according to an aspect of the present disclosure based on stereoscopic image data including a plurality of monoscopic images having a parallax, to the plurality of monoscopic images.
  • the method for transmitting stereoscopic video content based on the data of the stereoscopic image comprising a plurality of omnidirectional images having a parallax, from the plurality of omnidirectional images Generating a first frame comprising a plurality of projected first views; Generating a second frame including a plurality of second views by packing a plurality of first regions included in the plurality of first views based on region-wise packing information; And transmitting data relating to the generated second frame, wherein the plurality of second views includes a plurality of second regions corresponding to the plurality of first regions, and the packing information for each region may include: It includes information about the shape, orientation or transformation of each of the plurality of second regions.
  • An apparatus for transmitting stereoscopic video content comprising: a memory; Transceiver; And at least one processor coupled to the memory and the transceiver, wherein the at least one processor is based on data of the stereoscopic image including a plurality of omnidirectional images having parallax; Generating a first frame including a plurality of first views projected from a plurality of omnidirectional images, and based on region-wise packing information, a plurality of first images included in the plurality of first views Packing the first regions to generate a second frame including a plurality of second views, and transmitting data about the generated second frame, wherein the plurality of second views comprise the plurality of first views; And a plurality of second regions corresponding to regions, wherein the region-specific packing information includes information about a shape, orientation, or transformation of each of the plurality of second regions.
  • FIG. 1 is an exemplary view for explaining the configuration of a computer system that implements a stereo omnidirectional image packing method according to the present invention.
  • FIG. 2 illustrates a left and right stereoscopic 360 format according to the present disclosure
  • FIG. 3 illustrates a top-bottom stereoscopic 360 format.
  • FIG. 4 illustrates image stitching, projection, and packing per region of a single acquisition time instance.
  • FIG. 5 is an exemplary view for explaining a non-area packing method according to the present disclosure.
  • FIG. 6 is an exemplary diagram for explaining a separate and independent packing method according to the present disclosure.
  • FIG. 7 is an exemplary view for explaining a separation and mirroring packing method according to the present disclosure.
  • FIG. 8 is an exemplary diagram for explaining a mixed and independent packing method according to the present disclosure.
  • FIG 9 is an exemplary view for explaining a mixed and pair-wise packing method according to the present disclosure.
  • FIG. 10 is an exemplary view for explaining a packing method for a regular polyhedral projection image according to the present disclosure.
  • FIG. 11 is an exemplary view for explaining a packing method for each region using a triangular patch according to the present disclosure.
  • FIG. 12 is an exemplary view for explaining the layout of the left and right regions used in the non-region-specific packing method according to the present disclosure.
  • FIG. 13 is an exemplary view for explaining the layout of the upper and lower regions used in the non-region-specific packing method according to the present disclosure.
  • FIG. 15 is an exemplary diagram for explaining a region-specific packing method of adjusting and rearranging an area according to latitude in an isotropic projection (ERP) according to the present disclosure.
  • FIG. 16 is an exemplary diagram for explaining region-specific packing for a cube projection for viewport dependent streaming according to the present disclosure.
  • 17 is an exemplary diagram for explaining an embodiment of a method of packing an ERP image according to the present disclosure.
  • FIG. 18 is an exemplary diagram for describing a method of packing an ERP image according to the present disclosure.
  • 19 is an exemplary diagram for explaining a method of converting an isotonic projection according to the present disclosure into a layout similar to a cube.
  • 20 is an exemplary diagram for explaining another embodiment of converting an isotonic projection according to the present disclosure into a layout similar to a cube.
  • 21 is an exemplary diagram for describing a method of converting an ERP image into a cube-like ERP according to the present disclosure.
  • FIG. 22 is an exemplary view for explaining a TSP packing method according to the present disclosure.
  • FIG. 23 is an exemplary view for explaining an embodiment of a TSP packing method according to the present disclosure.
  • FIG. 24 is an exemplary view for explaining another embodiment of a TSP packing method according to the present disclosure.
  • 25 is an illustration of a typical fisheye video comprising two circular images in accordance with the present disclosure.
  • 26A is an exemplary diagram of stereoscopic fisheye video in a vertical stereo format according to the present disclosure.
  • 26B is an illustration of stereoscopic fisheye video in left and right stereo format according to the present disclosure.
  • 27 is an exemplary diagram of stereoscopic fisheye video having a pair-by-pair format for multiview according to the present disclosure.
  • 28 is an exemplary diagram of stereoscopic fisheye video having a group-by-group format for multiview according to the present disclosure.
  • 29 is an exemplary diagram for describing a fisheye camera according to the present disclosure.
  • FIG. 30 shows a displayed FOV for two fisheye images, in a fisheye camera according to the present disclosure.
  • FIG. 31 illustrates an overlapped FOV with a displayed FOV for multiple fisheye images, in a fisheye camera according to the present disclosure.
  • 32 is an exemplary view for explaining the center of a fisheye camera according to the present disclosure.
  • 33 is an exemplary diagram for describing parameters regarding a local field of view according to the present disclosure.
  • a “component surface” includes one or more component surfaces.
  • first and second may be used to describe various components, but the components are not limited by the terms. The terms are used only for the purpose of distinguishing one component from another.
  • first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component.
  • an electronic device may include a communication function.
  • the electronic device may include a smart phone, a tablet personal computer (PC), a mobile phone, a video phone, and an e-book reader (e).
  • -book reader desktop PC, laptop PC, netbook PC, personal digital assistant (PDA), portable Portable multimedia player (PMP, hereinafter referred to as 'PMP'), MP3 player, mobile medical device, camera, wearable device (e.g., head-mounted) Head-mounted device (HMD), for example referred to as 'HMD', electronic clothing, electronic bracelet, electronic necklace, electronic accessory, electronic tattoo, or smart watch ), Etc.
  • the electronic device may be a smart home appliance having a communication function.
  • the smart home appliance includes a television, a digital video disk (DVD) player, an audio, a refrigerator, an air conditioner, a vacuum cleaner, an oven, Microwave oven, washer, dryer, air purifier, set-top box, TV box (e.g. Samsung HomeSyncTM, Apple TVTM, or Google TVTM), gaming console ), An electronic dictionary, a camcorder, an electronic photo frame, and the like.
  • DVD digital video disk
  • an electronic device may include a medical device (eg, magnetic resonance angiography (MRA) device), and magnetic resonance imaging (MRI).
  • MRI magnetic resonance angiography
  • MRI magnetic resonance imaging
  • CT computed tomography
  • EDR event data recorder
  • FDR flight data recorder
  • automotive infotainment device navigation electronic device (e.g. navigation navigation device, gyroscope) ope, or compass), avionics, security devices, industrial or consumer robots, and the like.
  • an electronic device may include furniture, part of a building / structure, an electronic board, an electronic signature receiving device, a projector, and various measurement devices (eg, water) that include communication functionality. And electrical, gas, or electromagnetic wave measuring devices).
  • the electronic device may be a combination of devices as described above.
  • the electronic device according to the preferred embodiments of the present disclosure is not limited to the device as described above.
  • a device for transmitting and receiving VR content may be, for example, an electronic device.
  • the image may be a video, a still image, or the like, and the image content may include various multimedia contents including video, still images, and the like, related audio, subtitles, and the like.
  • the VR content includes image content that provides the image as a 360 degree image, a 3D image, or the like.
  • the media file format may be a media file format according to various media related standards such as an International Organization for Standardization (ISO) -based media file format (ISOBMFF).
  • ISO International Organization for Standardization
  • ISOBMFF International Organization for Standardization
  • projection refers to a process in which a spherical image for representing a 360 degree image or the like is projected onto a planar surface or an image frame according to a result of the processing.
  • Omnidirectional media are, for example, images or videos that can be rendered according to the direction of the user's head movement or when the user uses the HMD or according to the user's viewport. Or related audio.
  • the view port may be referred to as a field of view (FOV), and refers to an area of an image that is displayed to a user at a specific point in time, where the area of the image may be an area of the spherical image.
  • FOV field of view
  • FIG. 1 is an exemplary view for explaining the configuration of a computer system that implements a stereo omnidirectional image packing method according to the present invention.
  • a computer system may include at least one processor 110 and a memory 120.
  • the processor 110 may be a central processing unit (CPU) or a semiconductor device that processes instructions stored in the memory 120.
  • CPU central processing unit
  • semiconductor device that processes instructions stored in the memory 120.
  • the processor 110 may be a controller that controls all operations of the computer system 100.
  • the controller may execute operations in which the computer system 100 operates by reading and executing the program code stored in the memory 120.
  • Computer system 100 may include a user input device 150, a data communication bus 130, a user output device 160, and a storage 140. Each of the above components may be in data communication via the data communication bus 130.
  • the computer system can further include a network interface 170 coupled to the network 180.
  • Memory 120 and storage 140 may include various types of volatile or nonvolatile storage media.
  • the memory 120 may include a ROM 123 and a RAM 126.
  • Storage 140 may include non-volatile memory such as magnetic tape, hard disk drive (HDD), solid state drive (SDD), optical data device, and flash memory.
  • the packing method of the stereo omnidirectional image according to the embodiment of the present invention may be implemented by a computer executable method.
  • computer readable instructions may perform the operating method according to the present invention.
  • the above-described packing method of stereo omnidirectional image according to the present invention may be implemented as computer readable codes on a computer readable recording medium.
  • Computer-readable recording media include all kinds of recording media having data stored thereon that can be decrypted by a computer system. For example, there may be a read only memory (ROM), a random access memory (RAM), a magnetic tape, a magnetic disk, a flash memory, an optical data storage device, and the like.
  • the computer-readable recording medium can also be distributed over computer systems connected by a computer communication network, and stored and executed as code readable in a distributed fashion.
  • patch_shape represents the shape of a patch, that is, a rectangle, an isosceles triangle, a right triangle, and the like.
  • the patch may mean each area included in each view of the packed frame, or may mean each area included in each view of the projected frame.
  • patch_orientation indicates the rotation and flip of a patch shape indicating the orientation of various shapes.
  • patch_transform indicates the rotation and flip of the image data specified by the patch.
  • a region-based packing method for each region is proposed.
  • FIG. 2 illustrates a left and right stereoscopic 360 format according to the present disclosure
  • FIG. 3 illustrates a tom-bottom stereoscopic 360 format.
  • FIG. 4 illustrates image stitching, projection, and packing per region of a single acquisition time instance.
  • the area-specific packing method can flexibly subdivide the projected frame into a plurality of areas. Each region can be resized and relocated to a packed frame.
  • a method of packing by region for both monoscopic 360 video and stereoscopic 360 video will be described.
  • the input images of one time instance are stitched to produce a projected frame representing one view.
  • the input images of one time instance are stitched to produce a projected frame representing two views (one for each eye). Both views are mapped to the same packed frame and encoded by a conventional 2D (2 dimensional) video encoder.
  • each view of the projected frame may be mapped to a packed frame, respectively.
  • the sequence of packed frames of the left view or the right view may be coded independently and when using a multiview video encoder, it may be predicted from another view.
  • the region-by-area packing method of the stereo 360 video format and the stereo 360 video format have been agreed, certain parameters defining the layout of the stereo 360 video format have not been proposed or adopted yet.
  • This disclosure proposes several types of defining the layout of stereoscopic 360 video in packed frames. Each type has its own advantages. For example, according to the fully mixed-independent packing method, the left view and the right view can achieve good performance in terms of coding efficiency, but in tile-based delivery for viewport dependent streaming, it is appropriate to pack the left and right views in pairs. Do. The syntax and meaning for packing by region will be described later.
  • images of concurrent instances (B i ) are mapped to stitched, projected, and packed frames (D).
  • D is a schematic diagram of an image stitching, projection, and packing process for each region.
  • the input images Bi are stitched and projected onto a three-dimensional projection structure such as a sphere or a cube.
  • Image data on the projection structure is further arranged on the two-dimensional projection frame (C).
  • the format of the two-dimensional projection frame is indicated by a projection format indicator defined in coding independent media description code points (CICP) or omnidirectional media application format (OMAF).
  • CICP independent media description code points
  • OMAF omnidirectional media application format
  • Optional per region packing is applied to map the two-dimensional projection frame C into one or more packed frames D.
  • FIG. If no per-field packing is applied, the packed frame will be identical to the projected frame. Otherwise, the regions of the projected frame are mapped to the one or more packed frames D by indicating the location, shape, and size of each area of the one or more packed frames D.
  • the input images are converted into packed frames by a process without an intermediate process.
  • both the left view and the right view may be packed in the same packed frame. Then, when the stereoscopic formats of the left view and the right view are the same, each view of the native layout may be placed in the left or right area. If area-specific packing is applied to each view or both views, for each embodiment various layouts are possible.
  • two parameters are employed. The two parameters are stereo_format and stereo_packing_type.
  • the stereo_format parameter is an indicator that specifies a stereoscopic format, such as side-by-side or top-bottom.
  • stereo_packing_type defines a layout type for packing for each stereoscopic region.
  • the layout type relates to whether positions of respective regions belonging to the left view or the right view are separated, mixed, independent, or correspond to each other.
  • Each stereo_packing_type has advantages in terms of coding efficiency and functionality.
  • the following figures assume the same case as the left-right stereoscopic 360 format.
  • FIG. 5 is an exemplary view for explaining a non-area packing method according to the present disclosure.
  • Non-region-wise packing is possible using native layout rather than per-region packing.
  • stereo_packing_type corresponds to non-region-wise packing
  • each projected frame using the basic layout is placed in the left and right regions without shuffling.
  • the packing method using the default layout is the simplest layout and an efficient way to quickly extract and render each view. Since the projected frame and the packed frame are the same, the data structure of the image data is not changed.
  • FIG. 6 is an exemplary diagram for explaining a separate and independent packing method according to the present disclosure.
  • each projected frame having a basic layout of projection may be placed in the left-right region.
  • each half frame corresponding to each view is internally recognized by region-specific packing.
  • Each view is separated, but the local regions included in each view are sampled again and placed in half packed frames corresponding to the same view.
  • the separate-independent packing layout is effective for fast extraction and coding efficiency.
  • each view will have to be recognized for rendering after being decoded.
  • FIG. 7 is an exemplary view for explaining a separation and mirroring packing method according to the present disclosure.
  • each projected frame having a basic layout of projection may be placed in the left-right region.
  • each half frame corresponding to each view is internally recognized by region-specific packing.
  • each view is separated, but the local areas included in each view are resampled and placed in half packed frames corresponding to the same view.
  • the difference from the separate-independent packing is that the packing method for each area of one view and the packing method for each area of another view are the same. Compared with separate-independent packing, bits can be saved. Since the area-specific packing parameters of one view are the same as the area-specific packing parameters of another view, the area-specific packing parameters of one view do not need to be signaled.
  • FIG. 8 is an exemplary diagram for explaining a mixed and independent packing method according to the present disclosure.
  • stereo_packing_type is a mixed and independent packing method
  • each region of the projected frame of one view is resampled and placed at a particular location of the packed frame.
  • the advantage of the mixed-independent packing method is the coding efficiency. According to the mixed-independent packing method, an optimum layout with full flexibility in terms of compression can be found. However, extracting a view from a frame packed view is complicated, and the view must be recognized for rendering.
  • FIG 9 is an exemplary view for explaining a mixed and pair-wise packing method according to the present disclosure.
  • each region of the projected frame of the left view is resampled and placed at a specific position of the packed frame.
  • the corresponding area (same location, same size) of the projected frame of the right view is then sampled identically to the left view and is located to the right of the projected area of the left view.
  • the right view area can be located at the bottom portion of the packed area of the left view.
  • the main advantage of per-pair packing is that in all the left and right area projected frames. It is located in pairs. Thus, it is suitable for tile based delivery and rendering.
  • the area packed for each pair may be a tile. When specific tiles that are dependent on the current viewport are delivered, the stereoscopic views can always be displayed because each tile includes a left view and a right view. Bits representing the region-specific packing parameters for the right view will be saved as well.
  • FIG. 10 is an exemplary view for explaining a packing method for a regular polyhedral projection image according to the present disclosure.
  • the advantage of the mixed-independent packing method is the coding efficiency. According to the mixed-independent packing method, an optimum layout with full flexibility in terms of compression can be found. However, extracting a view from a frame packed view is complicated, and the view must be recognized for rendering.
  • This disclosure will present multiple layouts of each projection to find the best layout in terms of coding efficiency and memory usage. By observing that the packed projection performs better, several methods for packing to remove projection redundancy can be compared to the native unfolding or unrolling method.
  • FIG. 11 is an exemplary view for explaining a packing method for each region using a triangular patch according to the present disclosure.
  • the present disclosure should determine in advance which projection method OMAF has been adopted.
  • PACK-VE in the scope of pack verification experiments (PACK-VE), a generalized region-based packing method using a plurality of patches is proposed to enable a triangle-based packing method.
  • Some projection methods can be used in OMAF by using the basic projection method or the selective projection method or other extended mechanisms possible by unifrom resource indicators (URIs) and the triangle-based tetrahedrons (octahedrons, icosahedrons) Assume that you can.
  • URIs unifrom resource indicators
  • octahedrons, icosahedrons triangle-based tetrahedrons
  • CMP cube-based projection
  • OHP octahedron based projection
  • ISP icosahedron based projection
  • SSP segmented sphere projection
  • TSP Trunked Square Pyramid
  • each area indicated by a specific patch can be resampled and relocated from the projected frame to the packed frame.
  • the patch is shaped to specify image data to be packed.
  • Three parameters (patch_shape, patch_orientation, patch_transform) are proposed so that regions corresponding to various faces of various three-dimensional geometry (eg, cubes, octahedrons, icosahedrons, etc.) can be specified by various tetrahedra.
  • phatch_shape represents the patch shape (rectangle, isosceles triangle, right triangle, etc.)
  • patch_orientation represents the patch shape rotation and flips representing various shape orientations
  • patch_transform represents the rotation of image data specified by the patch. And flip.
  • FIG. 11 (a) is an exemplary diagram for describing a parameter of a triangular patch of a projected frame, and includes coordinates (proj_region_top_left_x, proj_region_top_left_y), width (proj_region_width), and height (proj_region_height) of the top-left of a region included in the projected frame.
  • Patch type patch_type, patch_shape
  • patch orientation patch_orientation
  • FIG. 11 (b) is an exemplary diagram for describing a parameter of a triangular patch of a packed frame, and includes coordinates (pack_region_top_left_x, pack_region_top_left_y), width (pack_region_width), and height (pack_region_height) of the top-left of a region included in the packed frame.
  • Patch_transform A patch type of 2 means that the patch is an isosceles triangle.
  • a patch transformation of 6 rotates the projected frame area 270 degrees counterclockwise to It means that you have created an area.
  • Table 1 is a syntax illustrating a data structure used to perform a stereoscopic region-specific packing method according to the present disclosure.
  • Table 2 shows setting values of stereo_format for specifying a stereoscopic 360 video format.
  • stereo_format 0x00 Reserved 0x01 Left-right stereoscopic 360 format 0x02 Top-bottom stereoscopic 360 format 0x03-0xFF Reserved
  • Table 3 shows setting values of stereo_packing_type for specifying a region-specific packing type for stereoscopic 360 video.
  • stereo_packing_type 0x00 reserved 0x01 no region-wise packing (native) 0x02 separate and independent packing 0x03 separate and mirroring packing 0x04 mixed and independent packing 0x05 mixed and mirroring packing 0x06-0xFF Reserved
  • stereo_packing_type 1
  • this specifies a projected frame having a basic layout of projections located in the left and right regions (or top and bottom regions) without shuffling.
  • stereo_packing_type is 2
  • each projected frame with a basic layout is located in the left or right area. Then, each half frame corresponding to each view is internally recognized by region-specific packing. Each view is separated, but the local regions included in each view are sampled again and placed in half packed frames corresponding to the same view.
  • the separate-independent packing layout is effective for fast extraction and coding efficiency. However, each view will have to be recognized for rendering after being decoded.
  • each projected frame having a basic layout of projection can be placed in the left-right region. Then, each half frame corresponding to each view is internally recognized by region-specific packing. Thus, each view is separated, but the local areas included in each view are resampled and placed in half packed frames corresponding to the same view. The difference from the separate-independent packing is that the packing method for each area of one view and the packing method for each area of another view are the same.
  • stereo_packing_type 4
  • each area of the projected frame of one view is resampled and placed at a specific location of the packed frame. There is no restriction for recognizing left and right frames projected onto the same packed frame.
  • stereo_packing_type is 5
  • each area of the projected frame of the left view is resampled and placed at a specific position of the packed frame.
  • the corresponding area (same location, same size) of the projected frame of the right view is then sampled identically to the left view and is located to the right of the projected area of the left view.
  • the right view area may be located at the bottom portion of the packed area of the left view.
  • FIG. 12 is an exemplary view for explaining the layout of the left and right regions used in the non-regional packing method according to the present disclosure, in which the projected frames and the stereo_packing_type are no region-wise packing (native), separate and independent packing, and separate.
  • the layout of the left and right regions of the packed frame in the case of and mirroring packing, mixed and independent packing, mixed and mirroring packing
  • FIG. 13 is an exemplary diagram for describing a layout of an upper and lower regions used in a non-regional packing method according to the present disclosure, in which projected frames and stereo_packing_type are no region-wise packing (native) (0x01), separate and independent The layout of the upper and lower regions of the packed frame when packing (0x02), separate and mirroring packing (0x03), mixed and independent packing (0x04), and mixed and mirroring packing (0x05) is shown.
  • width_proj_frame is the width of the projected frame.
  • height_proj_frame means the height of the projected frame.
  • num_of_regions means the number of packed regions specified by the patch.
  • uniform_region_size 1
  • the projected frame is divided into regions of the same size specified by uniform_region_width and uniform_region_height. If uniform_region_size is 0, the i-th region of the projected frame (i is an integer from 0 to num_of_regons-1). It is specified by the size specified by this proj_region_width [i] and proj_region_height [i].
  • uniform_region_width and uniform_region_height specify each region of the projected frame with the same width and height.
  • proj_region_width [i] and proj_region_height [i] specify the i-th region of the projected frame.
  • patch_shape [i] specifies the shape of the i-th region to be rearranged into the packed frame.
  • Table 4 shows the shape of each area of the projected frame according to patch_shape.
  • FIG. 14A shows that patch_shape is 0x01 (rectangle)
  • FIG. 14B shows that patch_shape is 0x02 (isosceles triangle)
  • FIG. 14C shows that patch_shape is 0x03 (right triangle)
  • patch_orientation [i] specifies the shape of the patch that has been rotated and flipped from the original patch shape (i-th area of the projected frame) indicated by patch_shape [i].
  • Table 5 shows the meaning of the rotation or flip according to patch_orientation [i].
  • patch_transform [i] specifies the rotation and flip of the image data specified by patch_orientation [i] and patch_shape [i] to be rearranged into the packed frame.
  • Table 6 shows the meaning of rotation or flip according to patch_transform [i].
  • packed_region_width [i] and packed_region_height [i] specify the width and height of the packed region of the packed frame corresponding to the i th region of the projected frame.
  • packed_region_top_left_x [i] and packed_region_top_left_y [i] specify the horizontal and vertical coordinates of the top-left corner of the packed region of the packed frame corresponding to the i th region of the projected frame.
  • FIG. 15 is an exemplary diagram for explaining a region-specific packing method of adjusting and rearranging an area according to latitude in an isotropic projection (ERP) according to the present disclosure.
  • OMAF incorporates a region-by-region packing method that removes redundant regions, thereby improving the projected coding efficiency.
  • an isotropic projection stitches each parallel of the sphere, transforming the sphere into a planar rectangular region. The range of stitching increases extremely in the polar direction.
  • the coding efficiency of the projected frame may be improved by reducing the region of the polar region.
  • the first and fifth regions corresponding to the high latitude region are sampled at a 1: 3 ratio
  • the middle latitude region (more than 30 degrees and less than 60 degrees, or less than -30 degrees).
  • the second area and the fourth area corresponding to -60 degrees or more) are sampled at a 2: 3 ratio
  • the third area corresponding to the low latitude area is sampled at a 1: 1 ratio
  • the packed frame may be obtained by rearranging the sampled regions as shown in FIG. 15C.
  • FIG. 16 is an exemplary diagram for explaining region-specific packing for a cube projection for viewport dependent streaming according to the present disclosure.
  • FIG. 16 shows an exemplary view of the area-by-area packing for a cube map of a projected frame consisting of a front face and five down sampled faces (left side, right side, back side, top side, bottom side) of 1/5.
  • rectangle-to-trapezoid mapping In order to improve the flexibility of packing by region, we propose a rectangle-to-trapezoid mapping.
  • the rectangle-to-trapezoid mapping enables various and effective area-specific packing methods. If the short edge is 1 pixel, it becomes a triangle.
  • 17 is an exemplary diagram for explaining a method of packing an ERP image according to the present disclosure.
  • ERP creates an extremely stretched pole region.
  • polarity redundancy pixels unnecessarily reduce the coding efficiency of the video.
  • FIG. 17 illustrates a region-specific packing approach that reduces the sampling rate of the pole region of an isquirectangular panorama.
  • the projected frame is first divided into eight rectangular sub-regions, and using line-down downsampling, each region is converted into a triangular shape and rearranged to form a rectangular format.
  • one embodiment of a method of packing an ERP image according to the present disclosure extremely reduces the number of pixels in the polar region, while maintaining the relatively equatorial region. Furthermore, the packaged frame is represented by a rectangular layout without discontinuities between sub-regions, and blank pixels do not contain scene information.
  • FIG. 18 is an exemplary diagram for describing a method of packing an ERP image according to the present disclosure.
  • 19 is an exemplary diagram for explaining a method of converting an isotonic projection according to the present disclosure into a layout similar to a cube.
  • an isotropic projected frame can be converted into a cube-like layout.
  • the top region and the bottom region are each divided into four subregions, each subregion is converted into a triangular region, and the like cube. It is relocated to the layout.
  • 20 is an exemplary diagram for explaining another embodiment of converting an isotonic projection according to the present disclosure into a layout similar to a cube.
  • FIG. 19 is an example of a 4x3 cube map layout
  • FIG. 20 is an example of a 3x2 cube map layout.
  • 21 is an exemplary diagram for describing a method of converting an ERP image into a cube-like ERP according to the present disclosure.
  • FIG. 21 shows an ERP image, a 4x3 cube map layout according to FIG. 20, and a 3x2 cube map layout according to FIG. 20.
  • FIG. 22 is an exemplary view for explaining a TSP packing method according to the present disclosure.
  • the cube map frame can be converted to a TSP.
  • the front may be a square sampled at a 1: 1 ratio
  • the back may be a square sampled at a 1: 9 ratio
  • the right, left, top, and bottom may be sampled at a 2: 9 ratio.
  • FIG. 23 is an exemplary view for explaining an embodiment of a TSP packing method according to the present disclosure.
  • the rectangular area of the packed frame is defined by four parameters.
  • the four parameters are the horizontal and vertical coordinates (pack_reg_left, pack_reg_top) and the width and height (pack_reg_width, pack_reg_height) of the top left vertex.
  • the rectangle side is defined as the shorter side of the trapezoid represented by the offset information (pack_sb_offset) 2320 and the length (pack_sb_length) 2330 indicating the position of the start point 2310. Define the trapezoidal area by setting.
  • FIG. 24 is an exemplary view for explaining another embodiment of a TSP packing method according to the present disclosure.
  • another parameter pack_sb_indicator is defined to indicate which side is a short side. For example, if pack_sb_indicator is 1, the upper side may be shorter, if pack_sb_indicator is 2, the lower side may be shorter, if pack_sb_indicator is 3, the left side may be shorter, and if pack_sb_indicator is 4, the right side may be shorter.
  • Table 7 shows the syntax for implementing the TSP packing method.
  • proj_frame_width specifies the width of the projected frame.
  • proj_frame_height specifies the height of the projected frame.
  • number_of_regions Specifies the number of subregions of the projected frame.
  • proj_reg_top [n] specify the x and y coordinates of the upper left corner of the nth rectangular subarea of the projected frame
  • proj_reg_width [n] specify the nth rectangular subareas of the projected frame Specify the width and height of the area.
  • pack_reg_top [n] specify the x and y coordinates of the upper left corner of the nth rectangular subarea of the packed frame
  • pack_reg_width [n] specify the nth rectangular sub of the packed frame Specify the width and height of the area.
  • pack_sb_offset [n] specifies the distance from the upper left vertex of the nth rectangular sub-region of the projected frame to the start of the shorter side.
  • pack_sb_length [n] specifies the length of the shorter side of the nth rectangular subregion of the projected frame.
  • pack_sb_indicators [n] specifies the location with the shorter side of the nth trapezoidal subregion of the packed frame that corresponds to the nth rectangular subregion of the projected frame. If pack_sb_indicators [n] is greater than zero, the nth rectangular subregion of the projected frame is trapezoidal, and if pack_sb_indicators [n] is zero, it is rectangular. Table 8 shows the positions of the shorter sides according to pack_sb_indicators [n].
  • pack_sb_indicators [n] 0 no shorter base (rectangular region)
  • proj_reg_rotation [n] specifies the clockwise rotation of the image data corresponding to the nth sub-region of the projected frame.
  • Table 9 shows rotation angles according to proj_reg_rotation [n].
  • the circular images taken by the fisheye cameras are directly encoded and transmitted.
  • the decoded image / video is rendered directly according to the viewport intended by the user. This method is useful for low latency live streaming or high quality 360 video delivery because images taken without intermediate projection methods, such as isotropic or cube map projection, are rendered directly.
  • 25 is an illustration of a typical fisheye video comprising two circular images in accordance with the present disclosure.
  • 26A is an exemplary diagram of stereoscopic fisheye video in a vertical stereo format according to the present disclosure.
  • 26B is an illustration of stereoscopic fisheye video in left and right stereo format according to the present disclosure.
  • 27 is an exemplary diagram of stereoscopic fisheye video having a pair-by-pair format for multiview according to the present disclosure.
  • 28 is an exemplary diagram of stereoscopic fisheye video having a group-by-group format for multiview according to the present disclosure.
  • the image frame may comprise omnidirectional fisheye video.
  • the decoded omnidirectional fisheye video is stitched and rendered according to the user's intended viewport using the signaled fisheye video parameters.
  • the fisheye video parameters include lens distortion correction (LDC) parameters with a local field of view (FOV), lens shading compensation parameters with red-green-blue gains. At least one of a displayed field of view information and a camera extrinsic parameter.
  • Table 10 shows syntax for stereoscopic fisheye video for multiview.
  • 29 is an exemplary diagram for describing a fisheye camera according to the present disclosure.
  • the meaning of each term is as follows.
  • num_circular_images specifies the number of circular images in the coded picture of each sample. num_circular_images can be 2 or any other nonzero integer.
  • image_center_x is a fixed point 16,16 value indicating the horizontal coordinate of the center of the circular image in the encoded picture of each sample to which the present syntax is applied in the luma samples.
  • image_center_y is a fixed point 16,16 value indicating the vertical coordinate of the center of the circular image in the encoded picture of each sample to which the present syntax is applied in the luma samples.
  • full_radius is a fixed point 16,16 value that indicates the radius from the center of the circular image to the edge of the full round image in luma samples.
  • frame_radius is a fixed point 16,16 value that indicates the radius from the center of the circular image to the edge of the nearest image boundary in luma samples.
  • the circular fisheye image can be cropped by the camera frame, and frame_radius is the radius of the circle indicating the pixels that are not available.
  • scene_radius is a fixed point 16,16 value that indicates the radius from the center of the circular image to the edge of the region of the nearest image in the luma samples.
  • the image area is an area free of obstructions from the camera body itself, and for stitching, there is no lens distortion too large.
  • FIG. 30 shows a displayed FOV for two fisheye images, in a fisheye camera according to the present disclosure.
  • image_rotation is a fixed point 16.16 that indicates the amount of rotation of the circular image in degrees.
  • Different video camera manufacturers use different coordinate systems or different layouts for each photographed individual fisheye image.
  • the image can range from -90 degrees to +90 degrees or from -180 degrees to +180 degrees.
  • image_flip indicates whether the image is flipped or how flipped. Thus, the reverse flip operation needs to be applied. If image_flip is 0, the image was not flipped. If image_flip is 1, the image is flipped vertically. If image_flip is 2, the image is flipped horizontally. If image_flip is 3, the image is flipped horizontally and flipped vertically
  • image_scale_axis_angle, image_scale_x, and image_scale_y are fixed point 16.16 values that indicate along which axis the image is scaled and how scaled. By indicating the value of image_scale_axis_angle in angle units, the axis is defined by a single angle. An angle of zero (image_scale_axis_angle) means that the horizontal vector is completely horizontal and the vertical vector is completely vertical.
  • image_scale_x and image_scale_y indicate the scaling ratios of the directions parallel and perpendicular to the axis, respectively.
  • field_of_view is a fixed point 16.16 value indicating the FOV of the fisheye lens in angle units.
  • the typical value (field_of_view) of the hemispherical fisheye lens is 180 degrees.
  • num_angle_for_displaying_fov indicates the number of angles. If num_angle_for_displaying_fov is 12, the fisheye image is divided into 12 sectors. The angle of the angular sector is 30 degrees. The value of the FOV superimposed with the displayed FOV is defined clockwise.
  • displayed_fov indicates the rendered and displayed FOV and the corresponding image area of each fisheye camera image.
  • overlapped_fov indicates overlapped regions in terms of FOV between multiple circular images.
  • scene_radius represents the relationship between the fisheye lens and the camera body.
  • the values may vary depending on the characteristics of the lens and the content.
  • the stitching quality having displayed_fov values is 170 degrees for the left camera and the quality for the right camera is better than the default value (180 degrees) of 190 degrees, the values of the displayed display_fov may be updated.
  • FIG. 31 illustrates an overlapped FOV with a displayed FOV for multiple fisheye images, in a fisheye camera according to the present disclosure.
  • a single displayed_fov value may not account for the exact region of each fisheye image.
  • displayed_fov (dark portion) varies depending on the direction.
  • num_angle_for_displaying_fov is introduced, and displayed_fov and overlapped_fov are defined in the clockwise direction.
  • 32 is an exemplary view for explaining the center of a fisheye camera according to the present disclosure.
  • num_polynomial_coefficients is an integer specifying the number of coefficients present in the polynomial.
  • List of coefficients of polynomial polynomial_coefficient_K is a fixed point 16.16 value representing the coefficients of the polynomial describing the transformation of the fisheye space into an undistorted plane image.
  • num_local_fov_region indicates the number of local fitting regions having different field of view (FOV).
  • Start_radius, end_radius, start_angle, and end_angle indicate an area for local fitting / warping that changes the actual FOV for locally displaying.
  • radius_delta indicates a delta value for indicating a different FOV for each radius.
  • angle_delta indicates a delta value for indicating a different FOV for each angle.
  • local_fov_weight indicates a weight value for the FOV of the position specified by start_radius, end_radius, start_angle, end_angle, the angle index i and the radius index j.
  • 33 is an exemplary diagram for describing parameters regarding a local field of view according to the present disclosure.
  • num_polynomial_coefficeients_lsc may be an order of polynomial approximation of the lens shading curve.
  • polynomial_coefficient_K_lsc_R may be a polynomial coefficient approximating the lens shading curve for the red color component in the fixed point 16.16 format.
  • polynomial_coefficient_K_lsc_G may be a polynomial coefficient that approximates the lens shading curve for the green color component in the fixed point 16.16 format.
  • polynomial_coefficient_K_lsc_B may be a polynomial coefficient that approximates the lens shading curve for the blue color component in the fixed point 16.16 format.
  • num_deadzones is an integer indicating the number of dead zones in the coded picture of each sample applied by this syntax.
  • deadzone_left_horizontal_offset, deadzone_top_vertical_offset, deadzone_width, and deadzone_height are integer values indicating the position and size of the dead zone rectangular area. You can't use pixels in the dead zone.
  • deadzone_left_horizontal_offset and deadzone_top_vertical_offset indicate, in luma samples, the horizontal and vertical coordinates of the upper left corner of the dead zone in the encoded picture, respectively.
  • deadzone_width and deadzone_height indicate the width and height of the dead zone in luma samples, respectively.
  • all the pixels in the dead zone are set to the same pixel value (eg all black).
  • a method for transmitting stereoscopic video content comprising: a plurality of projections from the plurality of omnidirectional images based on data of a stereoscopic image including a plurality of omnidirectional images having parallax; Generating a first frame comprising first views; Generating a second frame including a plurality of second views by packing a plurality of first regions included in the plurality of first views based on region-wise packing information; And transmitting data relating to the generated second frame, wherein the plurality of second views includes a plurality of second regions corresponding to the plurality of first regions, and the packing information for each region may include: It includes information about the shape, orientation or transformation of each of the plurality of second regions.
  • the packing information for each region may further include information indicating whether the stereoscopic video has a left and right stereoscopic 360 format or a vertical stereoscopic 360 format.
  • the packing information for each area may be stereoscopic indicating one of non-application of packing by area, packing by separate-independent area, packing by separate-mirroring area, packing by mixed-independent area, and packing by mixed-pair area. It may further include a packing type.
  • the information on the shape of each of the plurality of second regions indicates one of the plurality of shapes as the shape of each of the plurality of second regions, and the plurality of shapes may include a trapezoid.
  • the method for transmitting stereoscopic video content according to the present disclosure further includes generating an omnidirectional image of one of the plurality of omnidirectional images based on images acquired by the plurality of fisheye lenses,
  • the information about the one omnidirectional image may include: information indicating the number of divided regions for dividing an image acquired by each of the plurality of fisheye lenses according to a specific angle with respect to a center; Information indicating an area corresponding to a field of view (FOV) in each of the divided areas; And information indicating an area overlapping an image acquired by another fisheye lens in each of the divided areas.
  • FOV field of view
  • each of the plurality of first views may be a spherical projection image, an equirectangular projection image (ERP image), or a tetrahedral projection image
  • the regular polyhedral projection image may be a tetrahedral projection image, a cube projection image, an octahedron projection image, It may be a dodecahedron projection image or a dodecahedron projection image.
  • the packing information for each area may further include location information and size information of the plurality of first areas and location information and size information of the plurality of second areas.
  • the position information and the size information of each of the plurality of first regions may include the position information of the corresponding second region among the plurality of second regions, and It may be the same as the size information.
  • the stereoscopic packing type indicates packing for each separation-independent area
  • the plurality of second views may be separated and packed independently.
  • the plurality of second views may be separated and packed in the same manner.
  • the plurality of second views may be mixed with each other, and the plurality of second views may be independently packed.
  • the plurality of second views may be mixed with each other, paired, and packed.
  • the plurality of first views may be a cube projection images including a front surface, a rear surface, a left surface, a right surface, an upper surface, and a lower surface
  • the plurality of second regions may be the front surface, the rear surface, the left surface, and the right surface.
  • Each of the areas corresponding to the left side, the right side, the top side, and the bottom side of the plurality of second regions may have a trapezoidal shape.
  • the size of the region corresponding to the front surface of the plurality of second regions may be larger than the size of the region corresponding to the rear surface.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

A method for transmitting stereoscopic video content according to the present disclosure comprises the steps of: generating, on the basis of data of a stereoscopic video which includes a plurality of omnidirectional videos having parallax, a first frame comprising a plurality of first views projected from the plurality of omnidirectional videos; generating a second frame comprising a plurality of second views by packing, on the basis of region-wise packing information, a plurality of first regions included in the plurality of first views; and transmitting data on the generated second frame, wherein the plurality of second views include a plurality of second regions corresponding to the plurality of first regions, and the region-wise packing information includes information on shape, orientation, or transformation for each of the plurality of second regions.

Description

스테레오 스코픽 비디오 콘텐츠를 전송하기 위한 방법 및 장치Method and apparatus for transmitting stereoscopic video content
본 개시는 스테레오 전방향 영상(stereoscopic omni-directional video)의 데이터를 패킹하는 방법 및 장치에 관한 것이다.The present disclosure relates to a method and apparatus for packing data of stereoscopic omni-directional video.
인터넷은 인간이 정보를 생성하고 소비하는 인간 중심의 연결 망에서, 사물 등 분산된 구성 요소들 간에 정보를 주고 받아 처리하는 사물인터넷 (Internet of Things, IoT) 망으로 진화하고 있다. IoE (Internet of Everything) 기술은 클라우드 서버 등과의 연결을 통한 빅데이터 (Big data) 처리 기술 등이 IoT 기술에 결합된 하나의 예가 될 수 있다.The Internet has evolved from a human-centered connection network where humans create and consume information, and an Internet of Things (IoT) network that exchanges and processes information among distributed components such as things. The Internet of Everything (IoE) technology is an example in which big data processing technology through connection with a cloud server is combined with IoT technology.
IoT를 구현하기 위해서, 센싱 기술, 유무선 통신 및 네트워크 인프라, 서비스 인터페이스 기술, 및 보안 기술 등과 같은 기술 요소 들이 요구되어, 최근에는 사물간의 연결을 위한 센서 네트워크 (sensor network), 사물 통신 (Machine to Machine, M2M), MTC (Machine Type Communication) 등의 기술이 연구되고 있다.In order to implement IoT, technical elements such as sensing technology, wired / wireless communication and network infrastructure, service interface technology, and security technology are required, and recently, a sensor network and a machine to machine connection for connecting things , M2M), Machine Type Communication (MTC), etc. are being studied.
IoT 환경에서는 연결된 사물들에서 생성된 데이터를 수집, 분석하여 인간의 삶에 새로운 가치를 창출하는 지능형 IT (Internet Technology) 서비스가 제공될 수 있다. IoT는 기존의 IT 기술과 다양한 산업 간의 융합 및 복합을 통하여 스마트홈, 스마트 빌딩, 스마트 시티, 스마트 카 혹은 커넥티드 카, 스마트 그리드, 헬스 케어, 스마트 가전, 첨단의료서비스 등의 분야에 응용될 수 있다. 한편, IoT을 구현을 위한 콘텐트들 역시 진화하고 있다. 즉, 흑백 컨텐츠에서 컬러 컨텐츠 고선명(High Definition: HD), 초고선명(UltraHigh Definition Television: UHD), 최근의 HDR(high dynamic range) 컨텐츠 표준화 및 배포로 계속 진화해 감에 따라, 오큘러스(Oculus), 삼성 기어 VR 등과 같은 VR 장치들에서 재생될 수 있는 가상 현실(VR: virtual reality) 콘텐트에 대한 연구가 진행 중이다. VR 시스템의 근본적인 토대는 사용자를 모니터링하여, 사용자가 어떤 종류의 제어기를 사용하여 콘텐트 디스플레이 장치나 프로세싱 유닛으로 피드백 입력을 제공할 수 있게 하면 그 장치나 유닛이 해당 입력을 처리하여 콘텐트를 그에 맞춰 조정함으로써 인터랙션을 가능하게 하는 시스템이다.In an IoT environment, intelligent IT (Internet Technology) services that create new value in human life by collecting and analyzing data generated from connected objects can be provided. IoT can be applied to fields such as smart home, smart building, smart city, smart car or connected car, smart grid, health care, smart home appliance, and advanced medical service through convergence and complex of existing IT technology and various industries. have. Meanwhile, contents for implementing IoT are also evolving. In other words, as the content continues to evolve from black and white content to high definition (HD), ultrahigh definition television (UHD), and recent high dynamic range (HDR) content standardization, Oculus , And research on virtual reality (VR) content that can be played on VR devices such as Samsung Gear VR is in progress. The fundamental foundation of a VR system is to monitor the user so that the user can use any kind of controller to provide feedback input to the content display device or processing unit, and that device or unit processes that input and adjusts the content accordingly. This is a system that enables interaction.
VR 에코시스템 안의 기본 구성들은 예를 들어, HMD(head mounted display), 무선, 모바일 VR, TV들, CA VE(cave automatic virtual environment)들, 주변기기 및 햅틱스[VR에 입력을 제공하기 위한 다른 제어기들], 콘텐트 캡처[카메라, 비디오 스티칭], 콘텐트 스튜디오[게임, 라이브, 영화, 뉴스 및 다큐멘터리], 산업적 응용[교육, 건강관리, 부동산, 건설, 여행], 생산 도구 및 서비스[3D 엔진, 프로세싱 파워], 앱 스토어[VR 미디어 컨텐츠 용] 등을 포함하여 구성될 수 있다.Basic configurations within the VR ecosystem include, for example, head mounted display (HMD), wireless, mobile VR, TVs, CA automatic virtual environments (CA VE), peripherals and other controllers for providing input to haptics (VR). Fields, content capture [cameras, video stitching], content studios [game, live, film, news and documentary], industrial applications [education, healthcare, real estate, construction, travel], production tools and services [3D engine, processing Power], app store [for VR media content] and the like.
그리고, VR 콘텐트를 구성하기 위해서 수행되는, 360도 영상 컨텐츠의 캡쳐, 부호화 및 전송에 대해 3D, 360도 콘텐트를 위해 특히 설계될 수 있는 차세대 post-HEVC(High Efficiency Video Coding) 코덱의 구현 없이 많은 도전에 직면하고 있는 실정이다.And, without the implementation of the next-generation high efficiency video coding (HEVC) codec, which can be specifically designed for 3D, 360-degree content for capturing, encoding and transmitting 360-degree video content, which is performed to construct VR content. I'm facing a challenge.
따라서, VR 콘텐츠를 보다 효율적으로 구성하여 소비할 수 있는 방안이 요구된다.Accordingly, there is a need for a method of more efficiently constructing and consuming VR content.
본 개시는 스테레오 전방향 영상(stereo omni-directional video)의 데이터를 패킹하는 방법 및 장치를 제안한다.The present disclosure proposes a method and apparatus for packing data of stereo omni-directional video.
또한, 본 개시는 사다리꼴에 기초한 영역별 패킹 방법(trapezoid-based region-wise packing method)을 제안한다.The present disclosure also proposes a trapezoid-based region-wise packing method.
또한, 본 개시는 전방향 어안 영상의 패킹 방법을 제안한다.In addition, the present disclosure proposes a packing method of an omnidirectional fisheye image.
본 개시에 따른 본 개시의 일면에 따른 스테레오 스코픽 비디오 콘텐츠를 패킹하는 방법은, 시차(parallax)를 가지는 복수의 모노스코픽 영상들을 포함하는 스테레오스코픽 영상 데이터에 기초하여, 상기 복수의 모노스코픽 영상들에 대응하는 복수의 제1 뷰들을 포함하는 제1 프레임을 투영하는 단계; 영역별 패킹 정보를 시그널링하는 단계; 상기 영역별 패킹(region-wise packing) 정보에 기초하여, 상기 복수의 제1 뷰들에 포함되는 복수의 제1 영역들로부터, 상기 복수의 제2 뷰들에 포함되는 복수의 제2 영역들을 샘플링하는 단계; 상기 영역별 패킹에 관한 정보에 기초하여, 상기 복수의 제2 뷰들을 포함하는 제2 프레임을 패킹하는 단계; 를 포함하고, 상기 복수의 제1 뷰들의 각각은 360도 영상 또는 360도 영상의 일부를 포함한다. A method of packing stereoscopic video content according to an aspect of the present disclosure according to the present disclosure, based on stereoscopic image data including a plurality of monoscopic images having a parallax, to the plurality of monoscopic images. Projecting a first frame comprising a corresponding plurality of first views; Signaling region-specific packing information; Sampling a plurality of second regions included in the plurality of second views from the plurality of first regions included in the plurality of first views based on the region-wise packing information. ; Packing a second frame including the plurality of second views based on the information about the region-specific packing; Wherein each of the plurality of first views includes a 360 degree image or a portion of a 360 degree image.
본 개시에 따른 스테레오 스코픽 비디오 콘텐츠를 전송하기 위한 방법에 있어서, 시차(parallax)를 가지는 복수의 전방향(omnidirectional) 영상들을 포함하는 스테레오스코픽 영상의 데이터에 기초하여, 상기 복수의 전방향 영상들로부터 투영된 복수의 제1 뷰들을 포함하는 제1 프레임을 생성하는 단계; 영역별 패킹(region-wise packing) 정보에 기초하여, 상기 복수의 제1 뷰들에 포함되는 복수의 제1 영역들을 패킹하여, 복수의 제 2 뷰들을 포함하는 제 2 프레임을 생성하는 단계; 및 상기 생성된 제 2 프레임에 관한 데이터를 전송하는 단계를 포함하고, 상기 복수의 제 2 뷰들은 상기 복수의 제 1 영역들에 대응하는 복수의 제 2 영역들을 포함하고, 상기 영역별 패킹 정보는 상기 복수의 제 2 영역 각각의 모양, 지향 또는 변환에 관한 정보를 포함한다. In the method for transmitting stereoscopic video content according to the present disclosure, based on the data of the stereoscopic image comprising a plurality of omnidirectional images having a parallax, from the plurality of omnidirectional images Generating a first frame comprising a plurality of projected first views; Generating a second frame including a plurality of second views by packing a plurality of first regions included in the plurality of first views based on region-wise packing information; And transmitting data relating to the generated second frame, wherein the plurality of second views includes a plurality of second regions corresponding to the plurality of first regions, and the packing information for each region may include: It includes information about the shape, orientation or transformation of each of the plurality of second regions.
스테레오 스코픽 비디오 콘텐츠를 전송하기 위한 장치에 있어서, 메모리; 송수신기; 및 상기 메모리와 송수신기에 연결되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 시차(parallax)를 가지는 복수의 전방향(omnidirectional) 영상들을 포함하는 스테레오스코픽 영상의 데이터에 기초하여, 상기 복수의 전방향 영상들로부터 투영된 복수의 제1 뷰들을 포함하는 제1 프레임을 생성하고, 영역별 패킹(region-wise packing) 정보에 기초하여, 상기 복수의 제1 뷰들에 포함되는 복수의 제1 영역들을 패킹하여, 복수의 제 2 뷰들을 포함하는 제 2 프레임을 생성하고, 상기 생성된 제 2 프레임에 관한 데이터를 전송하는 단계를 포함하고, 상기 복수의 제 2 뷰들은 상기 복수의 제 1 영역들에 대응하는 복수의 제 2 영역들을 포함하고, 상기 영역별 패킹 정보는 상기 복수의 제 2 영역 각각의 모양, 지향 또는 변환에 관한 정보를 포함한다.An apparatus for transmitting stereoscopic video content, comprising: a memory; Transceiver; And at least one processor coupled to the memory and the transceiver, wherein the at least one processor is based on data of the stereoscopic image including a plurality of omnidirectional images having parallax; Generating a first frame including a plurality of first views projected from a plurality of omnidirectional images, and based on region-wise packing information, a plurality of first images included in the plurality of first views Packing the first regions to generate a second frame including a plurality of second views, and transmitting data about the generated second frame, wherein the plurality of second views comprise the plurality of first views; And a plurality of second regions corresponding to regions, wherein the region-specific packing information includes information about a shape, orientation, or transformation of each of the plurality of second regions.
도 1은 본 발명에 따른 스테레오 전방향 영상의 패킹 방법이 구현되는 컴퓨터 시스템의 구성을 설명하기 위한 예시도이다.1 is an exemplary view for explaining the configuration of a computer system that implements a stereo omnidirectional image packing method according to the present invention.
도 2는 본 개시에 따른 좌우 스테레오스코픽 360 포맷을 나타내고, 도 3은 탑-바텀 스테레오스코픽 360 포맷을 나타낸다.2 illustrates a left and right stereoscopic 360 format according to the present disclosure, and FIG. 3 illustrates a top-bottom stereoscopic 360 format.
도 4는 단일 획득 시간 인스턴스의 이미지 스티칭, 투영, 영역별 패킹을 나타낸다.4 illustrates image stitching, projection, and packing per region of a single acquisition time instance.
도 5는 본 개시에 따른 비 영역별 패킹 방법을 설명하기 위한 예시도이다.5 is an exemplary view for explaining a non-area packing method according to the present disclosure.
도 6은 본 개시에 따른 분리-독립 패킹 방법(separate and independent packing)을 설명하기 위한 예시도이다.6 is an exemplary diagram for explaining a separate and independent packing method according to the present disclosure.
도 7는 본 개시에 따른 분리-미러링 패킹 방법(separate and mirroring packing)을 설명하기 위한 예시도이다.7 is an exemplary view for explaining a separation and mirroring packing method according to the present disclosure.
도 8는 본 개시에 따른 혼합-독립 패킹 방법(mixed and independent packing)을 설명하기 위한 예시도이다.8 is an exemplary diagram for explaining a mixed and independent packing method according to the present disclosure.
도 9는 본 개시에 따른 혼합-페어별 패킹 방법(mixed and pair-wise packing)을 설명하기 위한 예시도이다.9 is an exemplary view for explaining a mixed and pair-wise packing method according to the present disclosure.
도 10은 본 개시에 따른 정다면체 투영 영상에 대한 패킹 방법을 설명하기 위한 예시도이다. 10 is an exemplary view for explaining a packing method for a regular polyhedral projection image according to the present disclosure.
도 11은 본 개시에 따른 삼각 패치를 이용한 영역별 패킹 방법을 설명하기 위한 예시도이다. 11 is an exemplary view for explaining a packing method for each region using a triangular patch according to the present disclosure.
도 12는 본 개시에 따른 비 영역별 패킹 방법에 사용되는 좌우 영역의 레이아웃을 설명하기 위한 예시도이다.12 is an exemplary view for explaining the layout of the left and right regions used in the non-region-specific packing method according to the present disclosure.
도 13는 본 개시에 따른 비 영역별 패킹 방법에 사용되는 상하 영역의 레이아웃을 설명하기 위한 예시도이다.13 is an exemplary view for explaining the layout of the upper and lower regions used in the non-region-specific packing method according to the present disclosure.
도 14는 본 개시의 patch_shape에 따른 패치의 모양을 나타낸다.14 shows the shape of a patch according to patch_shape of the present disclosure.
도 15는 본 개시에 따른 등장방 투영(equirectangular projection, ERP)에서 위도에 따라 영역의 크기를 조절하고 재배치하는 영역별 패킹 방법을 설명하기 위한 예시도이다. FIG. 15 is an exemplary diagram for explaining a region-specific packing method of adjusting and rearranging an area according to latitude in an isotropic projection (ERP) according to the present disclosure.
도 16은 본 개시에 따른 뷰포트 종속적인 스트리밍을 위한 정육면체 투영에 대한 영역별 패킹을 설명하기 위한 예시도이다.FIG. 16 is an exemplary diagram for explaining region-specific packing for a cube projection for viewport dependent streaming according to the present disclosure.
도 17은 본 개시에 따른 ERP 영상을 패킹하는 방법의 일실시예를 설명하기 위한 예시도이다.17 is an exemplary diagram for explaining an embodiment of a method of packing an ERP image according to the present disclosure.
도 18은 본 개시에 따른 ERP 영상을 패킹하는 방법을 설명하기 위한 예시도 이다. 18 is an exemplary diagram for describing a method of packing an ERP image according to the present disclosure.
도 19은 본 개시에 따른 등장방 투영을 정육면체와 유사한 레이아웃으로 변환하는 방법을 설명하기 위한 예시도이다.19 is an exemplary diagram for explaining a method of converting an isotonic projection according to the present disclosure into a layout similar to a cube.
도 20은 본 개시에 따른 등장방 투영을 정육면체와 유사한 레이아웃으로 변환하는 다른 실시예를 설명하기 위한 예시도이다.20 is an exemplary diagram for explaining another embodiment of converting an isotonic projection according to the present disclosure into a layout similar to a cube.
도 21은 본 개시에 따른 ERP 영상은 정육면체 유사 ERP로 변환하는 방법을 설명하기 위한 예시도이다.21 is an exemplary diagram for describing a method of converting an ERP image into a cube-like ERP according to the present disclosure.
도 22는 본 개시에 따른 TSP 패킹 방법을 설명하기 위한 예시도이다.22 is an exemplary view for explaining a TSP packing method according to the present disclosure.
도 23은 본 개시에 따른 TSP 패킹 방법의 일실시예를 설명하기 위한 예시도이다.23 is an exemplary view for explaining an embodiment of a TSP packing method according to the present disclosure.
도 24은 본 개시에 따른 TSP 패킹 방법의 다른 실시예를 설명하기 위한 예시도이다.24 is an exemplary view for explaining another embodiment of a TSP packing method according to the present disclosure.
도 25는 본 개시에 따른 두개의 원형 이미지을 포함하는 전형적인 어안 비디오의 예시도이다.25 is an illustration of a typical fisheye video comprising two circular images in accordance with the present disclosure.
도 26a는 본 개시에 따른 상하 스테레오 포맷의 스테레오스코픽 어안 비디오의 예시도이다. 26A is an exemplary diagram of stereoscopic fisheye video in a vertical stereo format according to the present disclosure.
도 26b는 본 개시에 따른 좌우 스테레오 포맷의 스테레오스코픽 어안 비디오의 예시도이다.26B is an illustration of stereoscopic fisheye video in left and right stereo format according to the present disclosure.
도 27은 본 개시에 따른 멀티뷰를 위한 페어별 포맷을 가지는 스테레오스코픽 어안 비디오의 예시도이다.27 is an exemplary diagram of stereoscopic fisheye video having a pair-by-pair format for multiview according to the present disclosure.
도 28은 본 개시에 따른 멀티뷰를 위한 그룹별 포맷을 가지는 스테레오스코픽 어안 비디오의 예시도이다.28 is an exemplary diagram of stereoscopic fisheye video having a group-by-group format for multiview according to the present disclosure.
도 29는 본 개시에 따른 어안 카메라를 설명하기 위한 예시도 이다.29 is an exemplary diagram for describing a fisheye camera according to the present disclosure.
도 30은 본 개시에 따른 어안 카메라에 있어서, 두개의 어안 이미지들을 위한 디스플레이된 FOV를 나타낸다.30 shows a displayed FOV for two fisheye images, in a fisheye camera according to the present disclosure.
도 31은 본 개시에 따른 어안 카메라에 있어서, 다수의 어안 이미지들을 위한 디스플레이된 FOV와 중첩된 FOV(overlapped FOV)를 나타낸다.FIG. 31 illustrates an overlapped FOV with a displayed FOV for multiple fisheye images, in a fisheye camera according to the present disclosure.
도 32는 본개시에 따른 어안 카메라의 중심을 설명하기 위한 예시도이다.32 is an exemplary view for explaining the center of a fisheye camera according to the present disclosure.
도 33은 본 개시에 따른 로컬 시야각(local FOV)에 관한 파라미터들을 설명하기 위한 예시도이다.33 is an exemplary diagram for describing parameters regarding a local field of view according to the present disclosure.
도 34는 본 개시의 부분 실시예에 따른 로컬 시야각의 예시도이다.34 is an illustration of a local viewing angle in accordance with some embodiments of the present disclosure.
이하 첨부된 도면을 참조하여 본 개시의 바람직한 실시 예에 대한 동작 원리를 상세히 설명한다. 도면상에 표시된 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 참조 번호로 나타내었으며, 다음에서 본 개시를 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 개시에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.DETAILED DESCRIPTION Hereinafter, an operating principle of a preferred embodiment of the present disclosure will be described in detail with reference to the accompanying drawings. Like reference numerals are used to designate like elements even though they are shown in different drawings, and detailed descriptions of related well-known functions or configurations are not required in the following description. If it is determined that it can be blurred, the detailed description thereof will be omitted. In addition, terms to be described below are terms defined in consideration of functions in the present disclosure, and may vary according to a user's or operator's intention or custom. Therefore, the definition should be made based on the contents throughout the specification.
본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시 예들을 가질 수 있는 바, 특정 실시 예들을 도면들에 예시하여 상세하게 설명한다. 그러나, 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.The present disclosure may be variously modified and have various embodiments, and specific embodiments will be described in detail with reference to the drawings. However, this is not intended to limit the present disclosure to specific embodiments, it should be understood to include all changes, equivalents, and substitutes included in the spirit and scope of the present disclosure.
또한, 본 명세서에서 명백하게 다른 내용을 지시하지 않는 “한”과, “상기”와 같은 단수 표현들은 복수 표현들을 포함한다는 것이 이해될 수 있을 것이다. 따라서, 일 예로, “컴포넌트 표면(component surface)”은 하나 혹은 그 이상의 컴포넌트 표면들을 포함한다.In addition, it is to be understood that the singular forms “a” and “an”, including “an”, unless the context clearly indicates otherwise, include plural expressions. Thus, as an example, a “component surface” includes one or more component surfaces.
또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 개시의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.In addition, terms including ordinal numbers such as first and second may be used to describe various components, but the components are not limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present disclosure, the first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component. The term and / or includes a combination of a plurality of related items or any item of a plurality of related items.
또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 개시를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Also, the terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the disclosure. Singular expressions include plural expressions unless the context clearly indicates otherwise. As used herein, the terms "comprise" or "have" are intended to indicate that there is a feature, number, step, action, component, part, or combination thereof described on the specification, and one or more other features. It is to be understood that the present invention does not exclude the possibility of the presence or the addition of numbers, steps, operations, components, components, or a combination thereof.
또한, 본 개시의 실시 예들에서, 별도로 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 개시의 실시 예에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.In addition, in the embodiments of the present disclosure, unless otherwise defined, all terms used herein including technical or scientific terms are to be generally understood by those skilled in the art to which the present disclosure belongs. It has the same meaning. Terms such as those defined in the commonly used dictionaries should be interpreted as having meanings consistent with the meanings in the context of the related art, and ideally or excessively formal meanings, unless explicitly defined in the embodiments of the present disclosure. Not interpreted as
본 개시의 다양한 실시 예들에 따르면, 전자 디바이스는 통신 기능을 포함할 수 있다. 일 예로, 전자 디바이스는 스마트 폰(smart phone)과, 태블릿(tablet) 개인용 컴퓨터(personal computer: PC, 이하 'PC'라 칭하기로 한다)와, 이동 전화기와, 화상 전화기와, 전자책 리더(e-book reader)와, 데스크 탑(desktop) PC와, 랩탑(laptop) PC와, 넷북(netbook) PC와, 개인용 복합 단말기(personal digital assistant: PDA, 이하 'PDA'라 칭하기로 한다)와, 휴대용 멀티미디어 플레이어(portable multimedia player: PMP, 이하 'PMP'라 칭하기로 한다)와, 엠피3 플레이어(mp3 player)와, 이동 의료 디바이스와, 카메라와, 웨어러블 디바이스(wearable device)(일 예로, 헤드-마운티드 디바이스(head-mounted device: HMD, 일 예로 'HMD'라 칭하기로 한다)와, 전자 의류와, 전자 팔찌와, 전자 목걸이와, 전자 앱세서리(appcessory)와, 전자 문신, 혹은 스마트 워치(smart watch) 등이 될 수 있다.According to various embodiments of the present disclosure, an electronic device may include a communication function. For example, the electronic device may include a smart phone, a tablet personal computer (PC), a mobile phone, a video phone, and an e-book reader (e). -book reader, desktop PC, laptop PC, netbook PC, personal digital assistant (PDA), portable Portable multimedia player (PMP, hereinafter referred to as 'PMP'), MP3 player, mobile medical device, camera, wearable device (e.g., head-mounted) Head-mounted device (HMD), for example referred to as 'HMD', electronic clothing, electronic bracelet, electronic necklace, electronic accessory, electronic tattoo, or smart watch ), Etc.
본 개시의 다양한 실시 예들에 따르면, 전자 디바이스는 통신 기능을 가지는 스마트 가정용 기기(smart home appliance)가 될 수 있다. 일 예로, 상기 스마트 가정용 기기는 텔레비전과, 디지털 비디오 디스크(digital video disk: DVD, 이하 'DVD'라 칭하기로 한다) 플레이어와, 오디오와, 냉장고와, 에어 컨디셔너와, 진공 청소기와, 오븐과, 마이크로웨이브 오븐과, 워셔와, 드라이어와, 공기 청정기와, 셋-탑 박스(set-top box)와, TV 박스 (일 예로, Samsung HomeSyncTM, Apple TVTM, 혹은 Google TVTM)와, 게임 콘솔(gaming console)과, 전자 사전과, 캠코더와, 전자 사진 프레임 등이 될 수 있다.According to various embodiments of the present disclosure, the electronic device may be a smart home appliance having a communication function. For example, the smart home appliance includes a television, a digital video disk (DVD) player, an audio, a refrigerator, an air conditioner, a vacuum cleaner, an oven, Microwave oven, washer, dryer, air purifier, set-top box, TV box (e.g. Samsung HomeSyncTM, Apple TVTM, or Google TVTM), gaming console ), An electronic dictionary, a camcorder, an electronic photo frame, and the like.
본 개시의 다양한 실시 예들에 따르면, 전자 디바이스는 의료 기기(일 예로, 자기 공명 혈관 조영술(magnetic resonance angiography: MRA, 이하 'MRA'라 칭하기로 한다) 디바이스와, 자기 공명 화상법(magnetic resonance imaging: MRI, 이하 “MRI”라 칭하기로 한다)과, 컴퓨터 단층 촬영(computed tomography: CT, 이하 'CT'라 칭하기로 한다) 디바이스와, 촬상 디바이스, 혹은 초음파 디바이스)와, 네비게이션(navigation) 디바이스와, 전세계 위치 시스템(global positioning system: GPS, 이하 'GPS'라 칭하기로 한다) 수신기와, 사고 기록 장치(event data recorder: EDR, 이하 'EDR'이라 칭하기로 한다)와, 비행 기록 장치(flight data recorder: FDR, 이하 'FER'이라 칭하기로 한다)와, 자동차 인포테인먼트 디바이스(automotive infotainment device)와, 항해 전자 디바이스(일 예로, 항해 네비게이션 디바이스, 자이로스코프(gyroscope), 혹은 나침반)와, 항공 전자 디바이스와, 보안 디바이스와, 산업용 혹은 소비자용 로봇(robot) 등이 될 수 있다.According to various embodiments of the present disclosure, an electronic device may include a medical device (eg, magnetic resonance angiography (MRA) device), and magnetic resonance imaging (MRI). MRI, hereinafter referred to as “MRI”), computed tomography (CT) device, imaging device, or ultrasound device), navigation device, A global positioning system (GPS) receiver, an event data recorder (EDR), and a flight data recorder. : FDR, hereinafter referred to as "FER", automotive infotainment device, navigation electronic device (e.g. navigation navigation device, gyroscope) ope, or compass), avionics, security devices, industrial or consumer robots, and the like.
본 개시의 다양한 실시 예들에 따르면, 전자 디바이스는 통신 기능을 포함하는, 가구와, 빌딩/구조의 일부와, 전자 보드와, 전자 서명 수신 디바이스와, 프로젝터와, 다양한 측정 디바이스들(일 예로, 물과, 전기와, 가스 혹은 전자기 파 측정 디바이스들) 등이 될 수 있다.According to various embodiments of the present disclosure, an electronic device may include furniture, part of a building / structure, an electronic board, an electronic signature receiving device, a projector, and various measurement devices (eg, water) that include communication functionality. And electrical, gas, or electromagnetic wave measuring devices).
본 개시의 다양한 실시 예들에 따르면, 전자 디바이스는 상기에서 설명한 바와 같은 디바이스들의 조합이 될 수 있다. 또한, 본 개시의 바람직한 실시 예들에 따른 전자 디바이스는 상기에서 설명한 바와 같은 디바이스에 한정되는 것이 아니라는 것은 당업자에게 자명할 것이다.According to various embodiments of the present disclosure, the electronic device may be a combination of devices as described above. In addition, it will be apparent to those skilled in the art that the electronic device according to the preferred embodiments of the present disclosure is not limited to the device as described above.
본 개시의 다양한 실시 예들에 따르면, VR 콘텐트를 송수신하는 기기는 일 예로, 전자 디바이스가 될 수 있다.According to various embodiments of the present disclosure, a device for transmitting and receiving VR content may be, for example, an electronic device.
이하, 본 개시의 실시 예들에서 사용되는 용어들을 아래와 같이 정의한다. 영상은 동영상(video), 정지 영상(image) 등이 될 수 있으며, 영상 컨텐츠는 동영상, 정지 영상 등은 물론 관련된 오디오, 자막 등을 포함하는 각종 멀티미디어 컨텐츠를 포함할 수 있다. VR 컨텐츠는 상기 영상을 360도 영상, 3D 영상 등으로 제공하는 영상 컨텐츠를 포함한다. 미디어 파일 포맷은 ISO(International Organization for Standardization) 기반 미디어 파일 포맷(ISOBMFF) 등과 같은 각종 미디어 관련 규격에 따른 미디어 파일 포맷 등이 될 수 있다. 그리고 투영(projection)은 360도 영상 등의 표현을 위한 구형 영상(spherical image)이 평면(planar surface) 상에 투영되는 처리 또는 그 처리 결과에 따른 영상 프레임을 의미한다. 맵핑(mapping)은 상기 투영에 따른 평면 상의 영상 데이터가 2D 평면에 매핑되는 처리 또는 그 처리 결과에 따른 영상 프레임을 의미한다. 전방향 미디어(omnidirectional media)는 예컨대, 사용자가 HMD를 이용하였을 때 사용자의 머리 움직임의 방향에 따라 또는 사용자의 뷰 포트(viewport)에 따라 렌더링될 수 있는 (동)영상(image or video) 및/또는 관련된 오디오를 포함한다. 상기 뷰 포트는 FOV(Field Of View)로 칭해질 수 있으며, 특정 시점에 사용자에게 보여지는 영상의 영역(여기서 상기 영상의 영역은 상기 구형 영상의 영역 등이 될 수 있다.)을 의미한다.Hereinafter, terms used in the embodiments of the present disclosure are defined as follows. The image may be a video, a still image, or the like, and the image content may include various multimedia contents including video, still images, and the like, related audio, subtitles, and the like. The VR content includes image content that provides the image as a 360 degree image, a 3D image, or the like. The media file format may be a media file format according to various media related standards such as an International Organization for Standardization (ISO) -based media file format (ISOBMFF). In addition, projection refers to a process in which a spherical image for representing a 360 degree image or the like is projected onto a planar surface or an image frame according to a result of the processing. Mapping refers to a process in which image data on a plane according to the projection is mapped to a 2D plane or an image frame according to a result of the process. Omnidirectional media are, for example, images or videos that can be rendered according to the direction of the user's head movement or when the user uses the HMD or according to the user's viewport. Or related audio. The view port may be referred to as a field of view (FOV), and refers to an area of an image that is displayed to a user at a specific point in time, where the area of the image may be an area of the spherical image.
이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명에 따른 스테레오 전방향 영상의 패킹 방법이 구현되는 컴퓨터 시스템의 구성을 설명하기 위한 예시도이다.1 is an exemplary view for explaining the configuration of a computer system that implements a stereo omnidirectional image packing method according to the present invention.
한편, 본 발명의 실시예에 따른 스테레오 전방향 영상의 패킹 방법은 컴퓨터 시스템에서 구현되거나, 또는 기록 매체에 기록될 수 있다. 도 1에 도시된 바와 같이, 컴퓨터 시스템은 적어도 하나 이상의 프로세서(110)와, 메모리(120)를 포함할 수 있다.Meanwhile, the packing method of the stereo omnidirectional image according to the embodiment of the present invention may be implemented in a computer system or recorded on a recording medium. As shown in FIG. 1, a computer system may include at least one processor 110 and a memory 120.
프로세서(110)는 CPU(central processing unit; 중앙 처리 장치)이거나, 혹은 메모리(120)에 저장된 명령어를 처리하는 반도체 장치일 수 있다. The processor 110 may be a central processing unit (CPU) or a semiconductor device that processes instructions stored in the memory 120.
프로세서(110)는 컴퓨터 시스템(100)의 모든 동작을 제어하는 제어기(controller)일 수 있다. 상기 제어기는 메모리(120)에서 저장된 프로그램 코드를 읽어 내어 실행함으로써 컴퓨터 시스템(100)이 작동하는 동작들을 실행할 수 있다.The processor 110 may be a controller that controls all operations of the computer system 100. The controller may execute operations in which the computer system 100 operates by reading and executing the program code stored in the memory 120.
컴퓨터 시스템(100)은 사용자 입력 장치(150)와, 데이터 통신 버스(130)와, 사용자 출력 장치(160)와, 저장소(140)를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스(130)를 통해 데이터 통신을 할 수 있다. Computer system 100 may include a user input device 150, a data communication bus 130, a user output device 160, and a storage 140. Each of the above components may be in data communication via the data communication bus 130.
컴퓨터 시스템은 네트워크(180)에 연결된 네트워크 인터페이스(170)를 더 포함할 수 있다. The computer system can further include a network interface 170 coupled to the network 180.
메모리(120) 및 저장소(140)는 다양한 형태의 휘발성 혹은 비휘발성 저장 매체를 포함할 수 있다. 예컨대, 메모리(120)는 ROM(123) 및 RAM(126)을 포함할 수 있다. 저장소(140)는 자기 테이프, 하드 디스크 드라이브(HDD), 솔리드 스테이트 드라이브(SDD), 광데이터 장치 및 플래시 메모리와 같은 비휘발성 메모리를 포함할 수 있다. Memory 120 and storage 140 may include various types of volatile or nonvolatile storage media. For example, the memory 120 may include a ROM 123 and a RAM 126. Storage 140 may include non-volatile memory such as magnetic tape, hard disk drive (HDD), solid state drive (SDD), optical data device, and flash memory.
따라서, 본 발명의 실시예에 따른 스테레오 전방향 영상의 패킹 방법은 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 스테레오 전방향 영상의 패킹 방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 운영 방법을 수행할 수 있다.Therefore, the packing method of the stereo omnidirectional image according to the embodiment of the present invention may be implemented by a computer executable method. When a method of packing stereo omnidirectional images according to an embodiment of the present invention is performed in a computer device, computer readable instructions may perform the operating method according to the present invention.
한편, 상술한 본 발명에 따른 스테레오 전방향 영상의 패킹 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장 장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록 매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.Meanwhile, the above-described packing method of stereo omnidirectional image according to the present invention may be implemented as computer readable codes on a computer readable recording medium. Computer-readable recording media include all kinds of recording media having data stored thereon that can be decrypted by a computer system. For example, there may be a read only memory (ROM), a random access memory (RAM), a magnetic tape, a magnetic disk, a flash memory, an optical data storage device, and the like. The computer-readable recording medium can also be distributed over computer systems connected by a computer communication network, and stored and executed as code readable in a distributed fashion.
본 개시에서 입체 360 영상을 위한 영역별 패킹 방법이 제안된다.In the present disclosure, a region-based packing method for a stereoscopic 360 image is proposed.
또한, 다수의 패치를 이용한 일반화된 영역별 패킹 방법이 제안된다. 많은 연구자 및 실무자들이 각 투영(projection)에 대한 다양한 레이아웃(layout)에 대하여 연구하고 있다. 레이아웃의 형태에 따라, 코딩 효율이 상당히 향상될 수 있다는 것이 알려 졌다. 특정 패치가 지시하는 각 영역은 리샘플링될 수 있고, 투영된 프레임으로부터 패킹된 프레임에게 재배치될 수 있다. 그리하여, 패치는 패킹될 영상 데이터의 영역을 특정한다. In addition, a generalized region packing method using a plurality of patches is proposed. Many researchers and practitioners are working on the various layouts for each projection. Depending on the type of layout, it has been found that coding efficiency can be significantly improved. Each region indicated by a particular patch can be resampled and relocated from the projected frame to the packed frame. Thus, the patch specifies the area of the image data to be packed.
다양한 다면체에 의하여, 특정될 수 있는 영역을 허용하기 위하여, 3차원 지오메트리들(예컨대, 육면체, 팔면체, 이십면체 등)의 다양한 면들에 대응하여, 3가지 파라미터들이 제안된다. 상기 3가지 파라미터들은 patch_shape, patch_orientation, patch_transform이다. patch_shape은 패치의 모양, 즉, 사각형, 이등변 삼각형, 직각 삼각형 등을 나타낸다. 여기서 패치는 패킹된 프레임의 각 뷰에 포함되는 각 영역을 의미할 수 있고, 또는, 투영된 프레임의 각 뷰에 포함되는 각 영역을 의미할 수 있다. patch_orientation은 다양한 모양의 지향(orientation)을 나타내는 패치 모양의 회전과 플립(flip, 좌우 거울 대칭)을 지시한다. patch_transform은 패치에 의하여 특정된 이미지 데이터의 회전과 플립을 지시한다. 또한, 사라리꼴 기반 영역별 패킹 방법이 제안된다.Three parameters are proposed, corresponding to various faces of three-dimensional geometries (eg, hexahedron, octahedron, icosahedron, etc.) to allow for an area that can be specified by various polyhedra. The three parameters are patch_shape, patch_orientation and patch_transform. patch_shape represents the shape of a patch, that is, a rectangle, an isosceles triangle, a right triangle, and the like. Herein, the patch may mean each area included in each view of the packed frame, or may mean each area included in each view of the projected frame. patch_orientation indicates the rotation and flip of a patch shape indicating the orientation of various shapes. patch_transform indicates the rotation and flip of the image data specified by the patch. In addition, a region-based packing method for each region is proposed.
전방향 미디어 응용 포맷(Omnidirectional media application format, OMAF)에 관한 국제 회의에서, 모노스코픽/스테레오스코픽 나타내는 것이 협의된다. 많은 VR 플레이어와 서비스 플랫폼은 스테레오스코픽 360 비디오를 플레이하고 전달할 수 있다. 스테레오스코픽의 포맷에 따라 좌우 스테레오스코픽 360 영상과 탐-바텀 스테레오스코픽 360 영상을 지원할 수 있다. In international conferences on Omnidirectional media application format (OMAF), monoscopic / stereoscopic representations are negotiated. Many VR players and service platforms can play and deliver stereoscopic 360 video. Depending on the format of stereoscopic, it can support left and right stereoscopic 360 image and Tom-bottom stereoscopic 360 image.
도 2는 본 개시에 따른 좌우 스테레오스코픽 360 포맷을 나타내고, 도 3은 탐-바텀 스테레오스코픽 360 포맷을 나타낸다.2 illustrates a left and right stereoscopic 360 format according to the present disclosure, and FIG. 3 illustrates a tom-bottom stereoscopic 360 format.
도 4는 단일 획득 시간 인스턴스의 이미지 스티칭, 투영, 영역별 패킹을 나타낸다.4 illustrates image stitching, projection, and packing per region of a single acquisition time instance.
본 개시에 따른 영역별 패킷 방법(region-wise packing)을 제안한다. 영역별 패킹 방법은 투영된 프레임을 다수의 영역으로 유연하게 세분화할 수 있다. 각 영역은 크기를 조정하고 패킹된 프레임으로 재배치 할 수 있다. 이하 모노스코픽 360 비디오와 스테레오스코픽 360 비디오 모두를 위한 영역별 패킹 방법을 설명한다. We propose a region-wise packing method according to the present disclosure. The area-specific packing method can flexibly subdivide the projected frame into a plurality of areas. Each region can be resized and relocated to a packed frame. Hereinafter, a method of packing by region for both monoscopic 360 video and stereoscopic 360 video will be described.
모노스코픽 360도 비디오의 경우, 하나의 뷰를 나타내는 투영된 프레임을 생성하기 위하여, 하나의 시간 인스턴스의 입력 영상들은 스티칭된다. 스테레오스코픽 360도 비디오의 경우, 2개의 뷰(각 눈 당 하나씩)를 나타내는 투영된 프레임을 생성하기 위하여, 하나의 시간 인스턴스의 입력 영상들이 스티칭된다. 양 뷰는 동일한 패킹된 프레임에 매핑되고, 통상적인 2D (2 dimensional) 비디오 인코더에 의하여 인코딩된다.In the case of monoscopic 360 degree video, the input images of one time instance are stitched to produce a projected frame representing one view. In the case of stereoscopic 360 degree video, the input images of one time instance are stitched to produce a projected frame representing two views (one for each eye). Both views are mapped to the same packed frame and encoded by a conventional 2D (2 dimensional) video encoder.
선택적으로, 투영된 프레임의 각 뷰는 각각 패킹된 프레임에 매핑될 수 있다. 좌측 뷰나 우측 뷰의 패킹된 프레임의 시퀀스는 독립적으로 코딩될 수 있고, 멀티뷰 비디오 엔코더를 사용할 때, 다른 뷰로부터 예측될 수 있다.Optionally, each view of the projected frame may be mapped to a packed frame, respectively. The sequence of packed frames of the left view or the right view may be coded independently and when using a multiview video encoder, it may be predicted from another view.
스테레오 360 비디오 포맷과 스테레오 360 비디오 포맷의 영역별 패킹 방법이 합의되었더라도, 스테레오 360 비디오 포맷의 레이아웃을 정의하는 특정 파라미터들은 아직 제안되거나 채택되지 않았다. 본 개시는 패킹된 프레임에서 스테레오스코픽 360 비디오의 레이아웃을 정의하는 몇몇 타입을 제안한다. 각 타입은 고유한 이점이 있다. 예컨대, 좌측 뷰와 우측 뷰를 완전 혼합-독립 패킹 방법에 따르면, 코딩 효율 측면에서 좋은 성능을 낼 수 있지만, 뷰포트 종속적 스트리밍을 위한 타일 기반 전달에서는 좌측 뷰와 우측 뷰를 페어 단위로 패킹하는 것이 적합하다. 영역별 패킹을 위한 구문과 의미는 후술한다.Although the region-by-area packing method of the stereo 360 video format and the stereo 360 video format have been agreed, certain parameters defining the layout of the stereo 360 video format have not been proposed or adopted yet. This disclosure proposes several types of defining the layout of stereoscopic 360 video in packed frames. Each type has its own advantages. For example, according to the fully mixed-independent packing method, the left view and the right view can achieve good performance in terms of coding efficiency, but in tile-based delivery for viewport dependent streaming, it is appropriate to pack the left and right views in pairs. Do. The syntax and meaning for packing by region will be described later.
도 4를 참고하면, 동시 인스턴스의 영상들(Bi)은 스티칭되고, 투영되고, 패킹된 프레임(D)으로 매핑됩니다. 도 4는 영상 스티칭, 투영, 영역별 패킹 프로세스의 모식도이다. 입력 영상들(Bi)은 구 또는 정육면체와 같은 3차원 투영 구조 상에 스티칭되고 투영된다. 투영 구조 상의 영상 데이터는 2차원 투영 프레임(C) 상에 더 배치되고(arranged). 상기 2차원 투영 프레임의 포맷은 CICP (coding independent media description code points) 또는 OMAF (Omnidirectional media application format)에서 정의되는 투영 포맷 지시자에 의해 지시된다. Referring to FIG. 4, images of concurrent instances (B i ) are mapped to stitched, projected, and packed frames (D). 4 is a schematic diagram of an image stitching, projection, and packing process for each region. The input images Bi are stitched and projected onto a three-dimensional projection structure such as a sphere or a cube. Image data on the projection structure is further arranged on the two-dimensional projection frame (C). The format of the two-dimensional projection frame is indicated by a projection format indicator defined in coding independent media description code points (CICP) or omnidirectional media application format (OMAF).
선택적인 영역별 패킹은 상기 2차원 투영 프레임(C)을 하나 이상의 패킹된 프레임들(D)로 매핑되도록 적용된다. 만야 영역별 패킹이 적용되지 아니하면, 패킹된 프레임은 투영된 프레임과 동일할 것이다. 그렇지 않으면, 상기 하나 이상의 패킹된 프레임들(D)의 각 영역의 위치, 모양, 크기를 지시함으로써, 투영된 프레임의 영역들은 상기 하나 이상의 패킹된 프레임들(D)에 매핑된다. 실무적으로, 중간 과정 없이 하나의 과정(process)에 의하여, 입력 영상들은 패킹된 프레임으로 변환된다.Optional per region packing is applied to map the two-dimensional projection frame C into one or more packed frames D. FIG. If no per-field packing is applied, the packed frame will be identical to the projected frame. Otherwise, the regions of the projected frame are mapped to the one or more packed frames D by indicating the location, shape, and size of each area of the one or more packed frames D. In practice, the input images are converted into packed frames by a process without an intermediate process.
이하 스테레오스코픽 360 비디오 패킹을 위한 다양한 레이아웃을 설명한다.Various layouts for stereoscopic 360 video packing are described below.
스테레오스코픽 360 비디오 패킹에 있어서, 좌측 뷰와 우측 뷰 모두 동일한 패킹된 프레임에 패킹될 수 있다. 그리고나서, 좌측 뷰와 우측 뷰의 스테레오스코픽 포맷이 동일할 때, 기본 레이아웃(native layout)의 각 뷰는 왼쪽 또는 오른쪽 영역에 배치할 수 있다. 만약, 영역별 패킹이 각 뷰 또는 양 뷰들에 적용된다면, 각 실시예에 대하여, 다양한 레이아웃들이 가능하다. 스테레오스코픽 레이아웃의 각 티입을 정의하기 위하여, 2가지 파라미터들이 채용된다. 2가지 파라미터들은 stereo_format 과 stereo_packing_type이다. stereo_format 파라미터는 왼쪽-오른쪽(side-by-side) 또는 탑-바텀(top-bottom)과 같은 스테레오스코픽 포맷을 특정하는 지시자이다.In stereoscopic 360 video packing, both the left view and the right view may be packed in the same packed frame. Then, when the stereoscopic formats of the left view and the right view are the same, each view of the native layout may be placed in the left or right area. If area-specific packing is applied to each view or both views, for each embodiment various layouts are possible. In order to define each type of stereoscopic layout, two parameters are employed. The two parameters are stereo_format and stereo_packing_type. The stereo_format parameter is an indicator that specifies a stereoscopic format, such as side-by-side or top-bottom.
stereo_packing_type은 스테레오스코픽 영역별 패킹을 위한 레이아웃 타입을 정의한다. 상기 레이아웃 타입은 좌측 뷰 또는 우측 뷰에 속하는 각 영역들의 위치가 분리되었지 혼합되었는지, 독립적인지 서로 대응되는지에 관한 것이다. stereo_packing_type defines a layout type for packing for each stereoscopic region. The layout type relates to whether positions of respective regions belonging to the left view or the right view are separated, mixed, independent, or correspond to each other.
각 stereo_packing_type은 코딩 효율 및 기능 면에서 이점을 갖는다. 하기의 그림들은 왼쪽-오른쪽 스테레오스코픽 360 포맷과 동일한 경우를 가정한다.Each stereo_packing_type has advantages in terms of coding efficiency and functionality. The following figures assume the same case as the left-right stereoscopic 360 format.
도 5는 본 개시에 따른 비 영역별 패킹 방법을 설명하기 위한 예시도이다.5 is an exemplary view for explaining a non-area packing method according to the present disclosure.
비 영역별 패킹(no region-wise packing)No region-wise packing
영역별 패킹이 아닌 기본 레이아웃(native layout)을 이용하는 비 영역별 패킹(Non-region-wise packing)이 가능하다.Non-region-wise packing is possible using native layout rather than per-region packing.
stereo_packing_type이 비영역별 패킹(non-region-wise packing)에 해당하면, 기본 레이아웃을 이용한 각 투영된 프레임은 셔프링 없이 좌우 영역에 배치된다. 기본 레이아웃을 이용한 패킹 방법은 가장 간단한 레이아웃이며, 각 뷰를 빠르게 추출하고 렌더링하는 효율적이 방법이다. 투영된 프레임과 패킹된 프레임이 동일하므로, 영상 데이터의 데이터 구조를 변경하지 아니한다.If stereo_packing_type corresponds to non-region-wise packing, each projected frame using the basic layout is placed in the left and right regions without shuffling. The packing method using the default layout is the simplest layout and an efficient way to quickly extract and render each view. Since the projected frame and the packed frame are the same, the data structure of the image data is not changed.
도 6은 본 개시에 따른 분리-독립 패킹 방법(separate and independent packing)을 설명하기 위한 예시도이다.6 is an exemplary diagram for explaining a separate and independent packing method according to the present disclosure.
분리-독립 패킹 방법(separate and independent packing)Separate and independent packing method
stereo_packing_type이 분리-독립 패킹(separate and independent packing)이면, 투영의 기본 레이아웃을 가지는 각 투영된 프레임은 좌측-우측 영역에 배치될 수 있다.If stereo_packing_type is separate and independent packing, each projected frame having a basic layout of projection may be placed in the left-right region.
그러면, 각 뷰에 대응하는 각 반-프레임(half frame)은 내부적으로 영역별 패킹에 의하여 인식된다. 각 뷰는 분리되고, 그러나, 각 뷰에 포함되는 로컬 영역들은 다시 샘플링되고, 동일한 뷰에 대응하는 절반의 패킹된 프레임에 배치된다. 분리-독립 패킹 layout은 빠른 추출과 코딩 효율성 증진에 효과적이다. 그러나, 각 뷰는 디코딩된 후 렌더링의 위하여 인식되어야 할 것이다.Then, each half frame corresponding to each view is internally recognized by region-specific packing. Each view is separated, but the local regions included in each view are sampled again and placed in half packed frames corresponding to the same view. The separate-independent packing layout is effective for fast extraction and coding efficiency. However, each view will have to be recognized for rendering after being decoded.
도 7는 본 개시에 따른 분리-미러링 패킹 방법(separate and mirroring packing)을 설명하기 위한 예시도이다.7 is an exemplary view for explaining a separation and mirroring packing method according to the present disclosure.
분리-미러링 패킹 방법(separate and mirroring packing)Separate and mirroring packing
stereo_packing_type이 분리-미러링 패킹(separate and mirroring packing)이면, 투영의 기본 레이아웃을 가지는 각 투영된 프레임은 좌측-우측 영역에 배치될 수 있다.If stereo_packing_type is separate and mirroring packing, each projected frame having a basic layout of projection may be placed in the left-right region.
그러면, 각 뷰에 대응하는 각 반-프레임(half frame)은 내부적으로 영역별 패킹에 의하여 인식된다. 그리하여, 각 뷰는 분리되나, 각 뷰에 포함되는 로컬 영역들은 리샘플링되고, 동일한 뷰에 대응하는 절반의 패킹된 프레임에 배치된다. 분리-독립 패킹과의 차이점은 하나의 뷰의 영역별 패킹 방법과 다른 뷰의 영역별 패킹 방법이 동일하다는 것이다. 분리-독립 패킹과 비교할 때, 비트(bit)를 절약할 수 있다. 하나의 뷰의 영역별 패킹 파라미터가 다른 뷰의 영역별 패킹 파라미터와 동일하기 때문에, 하나의 뷰의 영역별 패킹 파라미터는 시그널링될 필요가 없다. Then, each half frame corresponding to each view is internally recognized by region-specific packing. Thus, each view is separated, but the local areas included in each view are resampled and placed in half packed frames corresponding to the same view. The difference from the separate-independent packing is that the packing method for each area of one view and the packing method for each area of another view are the same. Compared with separate-independent packing, bits can be saved. Since the area-specific packing parameters of one view are the same as the area-specific packing parameters of another view, the area-specific packing parameters of one view do not need to be signaled.
도 8는 본 개시에 따른 혼합-독립 패킹 방법(mixed and independent packing)을 설명하기 위한 예시도이다.8 is an exemplary diagram for explaining a mixed and independent packing method according to the present disclosure.
혼합-독립 패킹 방법(mixed and independent packing)Mixed and independent packing method
stereo_packing_type이 혼합-독립 패킹 방법(mixed and independent packing)이면, 하나의 뷰의 투영된 프레임의 각 영역은 리샘플링되고, 패킹된 프레임의 특정 위치에 배치된다. 동일한 패킹된 프레임에 투영된 좌측과 우측의 프레임들을 인식하기 위한 제한이 없다. 혼합-독립 패킹 방법의 이점은 코딩 효율성이다. 혼합-독립 패킹 방법에 따라서, 압축 측면에서 완전 유연성을 가지는 최적의 레이아웃을 찾을 수 있다. 그러나, 뷰를 패킹된 프레임으로부터 뷰를 추출하는 것이 복잡하고, 상기 뷰는 렌더링을 위하여 인식되어야 한다.If stereo_packing_type is a mixed and independent packing method, each region of the projected frame of one view is resampled and placed at a particular location of the packed frame. There is no restriction for recognizing left and right frames projected onto the same packed frame. The advantage of the mixed-independent packing method is the coding efficiency. According to the mixed-independent packing method, an optimum layout with full flexibility in terms of compression can be found. However, extracting a view from a frame packed view is complicated, and the view must be recognized for rendering.
도 9는 본 개시에 따른 혼합-페어별 패킹 방법(mixed and pair-wise packing)을 설명하기 위한 예시도이다.9 is an exemplary view for explaining a mixed and pair-wise packing method according to the present disclosure.
혼합-페어별 패킹 방법(mixed and pair-wise packing)Mixed and pair-wise packing
stereo_packing_type이 혼합-페어별 패킹(mixed and pair-wise packing)이면, 좌측 뷰의 투영된 프레임의 각 영역은 리샘플링되고, 패킹된 프레임의 특정 위치에 배치된다. 그러면, 우측 뷰의 투영된 프레임의 대응되는 영역(같은 위치, 같은 사이즈)은 좌측 뷰와 동일하게 샘플링되고, 좌측 뷰의 투영된 영역의 오른쪽에 위치한다. (탐-바텀 스테레오스코픽이 사용될 때는, 우측 뷰 영역이 좌측 뷰의 패킹된 영역의 바텀 부분에 위치할 수 있다.) 혼합-페어별 패킹의 주된 이점은 모든 좌측 영역과 우측 영역이 투영된 프레임에 페어별로 위치한다는 것이다. 그리하여, 타일 기반 전달 및 렌더링에 적합하다. 페어별로 패킹된 영역은 타일일 수 있다. 현재 뷰포트에 종속적인 특정 타일들이 전달될 때, 각 타일에 좌측 뷰와 우측 뷰를 포함하기 때문에, 스테레오스코픽 뷰들은 항상 디스플레이될 수 있다. 우측 뷰를 위한 영역별 패킹 파라미터를 나타내는 비트들은 마찬가지로 절약될 것이다.If stereo_packing_type is mixed and pair-wise packing, each region of the projected frame of the left view is resampled and placed at a specific position of the packed frame. The corresponding area (same location, same size) of the projected frame of the right view is then sampled identically to the left view and is located to the right of the projected area of the left view. (When tom-bottom stereoscopic is used, the right view area can be located at the bottom portion of the packed area of the left view.) The main advantage of per-pair packing is that in all the left and right area projected frames. It is located in pairs. Thus, it is suitable for tile based delivery and rendering. The area packed for each pair may be a tile. When specific tiles that are dependent on the current viewport are delivered, the stereoscopic views can always be displayed because each tile includes a left view and a right view. Bits representing the region-specific packing parameters for the right view will be saved as well.
도 10은 본 개시에 따른 정다면체 투영 영상에 대한 패킹 방법을 설명하기 위한 예시도이다. 10 is an exemplary view for explaining a packing method for a regular polyhedral projection image according to the present disclosure.
동일한 패킹된 프레임에 투영된 좌측과 우측의 프레임들을 인식하기 위한 제한이 없다. 혼합-독립 패킹 방법의 이점은 코딩 효율성이다. 혼합-독립 패킹 방법에 따라서, 압축 측면에서 완전 유연성을 가지는 최적의 레이아웃을 찾을 수 있다. 그러나, 뷰를 패킹된 프레임으로부터 뷰를 추출하는 것이 복잡하고, 상기 뷰는 렌더링을 위하여 인식되어야 한다.There is no restriction for recognizing left and right frames projected onto the same packed frame. The advantage of the mixed-independent packing method is the coding efficiency. According to the mixed-independent packing method, an optimum layout with full flexibility in terms of compression can be found. However, extracting a view from a frame packed view is complicated, and the view must be recognized for rendering.
본 개시는 코딩 효율성 및 메모리 사용의 측면에서, 가장 좋은 레이아웃을 찾기 위하여, 각 투영의 다수의 레이아웃을 제시할 것이다. 패킹된 투영이 더 잘 수행하는지를 관측함으로써, 투영의 불필요한 중복(projection redundancy)을 제거하기 위한 패킹을 위한 몇가지 방법들이 본래의 접힘 해제 또는 감기 해제 (native unfolding or unrolling) 방법과 비교될 수 있다.This disclosure will present multiple layouts of each projection to find the best layout in terms of coding efficiency and memory usage. By observing that the packed projection performs better, several methods for packing to remove projection redundancy can be compared to the native unfolding or unrolling method.
이십면체 기반의 투영(icosahedron based projection, ISP)의 경우, 기본 레이아웃(native layout)과 패킹할 컴팩트 투영 레이아웃의 압축 효율 차이는 9.5%(all intra, AI), 4.9%(random access, RA), 3.0%(low delay B pricture, LD-B), 3.3%(low delay P picture, LD-P)으로 보고되었다. 정육면체 기반 투영(cube based projection, CMP)는 실험적 결과는 코딩 효율 측면에서 4x3 기본 레이아웃이 3x2 컴팩트 레이아웃을 평균적으로 1.4%(AI), 1.3%(RA), 1.7%(low delay B pricture, LD-B), 1.7%(low delay P picture, LD-P)만큼 능가하는 것을 보여준다. 유의미한 RD 이득은 발견되지 아니하였다. 이러한 결과들에 기초하면, ISP를 위한 삼각형 기반 패킹은 CMP를 위한 사각형 기반 패킹에 비하여 더 효율적인 것으로 예상된다.For icosahedron based projections (ISPs), the difference in compression efficiency between the native layout and the compact projection layout to be packed is 9.5% (all intra, AI), 4.9% (random access, RA), 3.0% (low delay B pricture, LD-B) and 3.3% (low delay P picture, LD-P) were reported. For cube based projection (CMP), experimental results show that in terms of coding efficiency, the 4x3 basic layout averages 1.4% (AI), 1.3% (RA), and 1.7% (low delay B pricture, LD-) over the 3x2 compact layout. B), it surpasses 1.7% (low delay P picture, LD-P). No significant RD gain was found. Based on these results, triangle based packing for ISP is expected to be more efficient than square based packing for CMP.
도 11은 본 개시에 따른 삼각 패치를 이용한 영역별 패킹 방법을 설명하기 위한 예시도이다. 11 is an exemplary view for explaining a packing method for each region using a triangular patch according to the present disclosure.
일반적인 영역별 패킹General Area Packing
어떤 종류의 패킹 방법이 필요한지를 결정하기 위하여, 본 개시는 OMAF 어떤 투영 방법이 채택되었는지 미리 결정해야 한다. 그러나, 본 개시에서는 PACK-VE(pack verification experiments)의 범위에서, 삼각형 기반 패킹 방법을 가능할 수 있도록, 다수의 패치들을 사용하는 일반화된 영역별 패킹 방법을 제안한다. 몇몇 투영 방법들은 URI(unifrom resource indicator)에 의하여 가능한 기본 투영 방법 또는 선택적 투영 방법 또는 다른 확장된 메커니즘으로써, 직사각형 기반의 정다면체(정육면체)와 삼각형 기반의 정다면체(정팔면체, 정이십면체)를 OMAF에서 이용할 수 있는 것을 가정한다. CMP(cube based projection), OHP(octahedron based projection), ISP(icosahedron based projection), SSP(Segmented Sphere Projection), TSP(Truncated Square Pyramid)와 코딩 효율을 증진시키고, 메모리 사용을 감소시킬 수 있는 일반화된 패킹이 바람직할 것이다.In order to determine what kind of packing method is required, the present disclosure should determine in advance which projection method OMAF has been adopted. However, in the present disclosure, in the scope of pack verification experiments (PACK-VE), a generalized region-based packing method using a plurality of patches is proposed to enable a triangle-based packing method. Some projection methods can be used in OMAF by using the basic projection method or the selective projection method or other extended mechanisms possible by unifrom resource indicators (URIs) and the triangle-based tetrahedrons (octahedrons, icosahedrons) Assume that you can. Generalized to improve cube-based projection (CMP), octahedron based projection (OHP), ISP (icosahedron based projection), segmented sphere projection (SSP), Trunked Square Pyramid (TSP) and coding efficiency, and reduce memory usage Packing would be preferred.
본 개시에 따른 제안된 영역별 패킹 방법에서, 특정한 패치에 의하여 지시되는 각 영역은 리샘플링될 수 있고, 투영된 프레임으로부터 패킹된 프레임에게 재배치될 수 있다. 그리하여, 상기 패치는 패킹될 이미지 데이터를 특정하는 모양이 된다. 다양한 3차원 지오메트리(예컨대, 정육면체, 정팔면체, 정이십면체 등)의 다양한 면들에 상응하는 영역이 다양한 정다면체에 의하여 특정될 수 있도록, 세가지 파라미터들(patch_shape, patch_orientation, patch_transform)이 제안된다. phatch_shape은 패치듸 모양(직사각형, 이등변 삼각형, 직각 삼각형 등)을 나타내고, patch_orientation은 다양한 모양의 지향들(orientations)을 나타내는 패치 모양의 회전과 플립을 나타내고, patch_transform은 패치에 의하여 특정되는 이미지 데이터의 회전과 플립을 나타낸다.In the proposed area-specific packing method according to the present disclosure, each area indicated by a specific patch can be resampled and relocated from the projected frame to the packed frame. Thus, the patch is shaped to specify image data to be packed. Three parameters (patch_shape, patch_orientation, patch_transform) are proposed so that regions corresponding to various faces of various three-dimensional geometry (eg, cubes, octahedrons, icosahedrons, etc.) can be specified by various tetrahedra. phatch_shape represents the patch shape (rectangle, isosceles triangle, right triangle, etc.), patch_orientation represents the patch shape rotation and flips representing various shape orientations, and patch_transform represents the rotation of image data specified by the patch. And flip.
도 11(a)는 투영된 프레임의 삼각형 패치의 파라미터를 설명하기 위한 예시도로서, 투영된 프레임에 포함되는 영역의 탑-레프트의 좌표 (proj_region_top_left_x, proj_region_top_left_y), 너비(proj_region_width), 높이(proj_region_height), 패치 타입(patch_type, patch_shape), 패치의 지향(patch_orientation)을 나타내고 있다. 패치 타입이 2이면, 패치의 모양이 이등변 삼각형인 것을 의미한다. 패치 지향점이 2이면, 입력된 영상의 영역을 시계 반대 방향으로 90도 회전하여 투영된 프레임의 영역을 생성한 것을 의미한다.FIG. 11 (a) is an exemplary diagram for describing a parameter of a triangular patch of a projected frame, and includes coordinates (proj_region_top_left_x, proj_region_top_left_y), width (proj_region_width), and height (proj_region_height) of the top-left of a region included in the projected frame. , Patch type (patch_type, patch_shape), and patch orientation (patch_orientation). If the patch type is 2, it means that the patch is an isosceles triangle. If the patch orientation point is 2, it means that the region of the input image is generated by rotating the region of the input image 90 degrees counterclockwise.
도 11(b)는 패킹된 프레임의 삼각형 패치의 파라미터를 설명하기 위한 예시도로서, 패킹된 프레임에 포함되는 영역의 탑-레프트의 좌표 (pack_region_top_left_x, pack_region_top_left_y), 너비(pack_region_width), 높이(pack_region_height), 패치 변환(patch_transform을 나타내고 있다. 패치 타입이 2이면, 패치의 모양이 이등변 삼각형인 것을 의미한다. 패치 변환이 6이면, 투영된 프레임의 영역을 시계 반대 방향으로 270도 회전하여 패킹된 프레임의 영역을 생성한 것을 의미한다.FIG. 11 (b) is an exemplary diagram for describing a parameter of a triangular patch of a packed frame, and includes coordinates (pack_region_top_left_x, pack_region_top_left_y), width (pack_region_width), and height (pack_region_height) of the top-left of a region included in the packed frame. , Patch_transform. A patch type of 2 means that the patch is an isosceles triangle. A patch transformation of 6 rotates the projected frame area 270 degrees counterclockwise to It means that you have created an area.
5. 구문(syntax)5. Syntax
표 1은 본 개시에 따른 스테레오스코픽 영역별 패킹 방법을 수행하는데 사용되는 데이터 구조를 나타내는 구문이다.Table 1 is a syntax illustrating a data structure used to perform a stereoscopic region-specific packing method according to the present disclosure.
Figure PCTKR2017014742-appb-T000001
Figure PCTKR2017014742-appb-T000001
6. 의미(semantics)6. semantics
표 2는 스테레오스코픽 360 비디오 포맷을 특정하는 stereo_format의 설정값을 나타낸다.Table 2 shows setting values of stereo_format for specifying a stereoscopic 360 video format.
valuevalue stereo_formatstereo_format
0x000x00 ReservedReserved
0x010x01 Left-right 스테레오스코픽 360 포맷Left-right stereoscopic 360 format
0x020x02 Top-bottom 스테레오스코픽 360 포맷Top-bottom stereoscopic 360 format
0x03-0xFF0x03-0xFF ReservedReserved
표 3는 스테레오스코픽 360 비디오를 위한 영역별 패킹 타입을 특정하는 stereo_packing_type의 설정값을 나타낸다.Table 3 shows setting values of stereo_packing_type for specifying a region-specific packing type for stereoscopic 360 video.
valuevalue stereo_packing_typestereo_packing_type
0x000x00 reservedreserved
0x010x01 no region-wise packing(native)no region-wise packing (native)
0x020x02 separate and independent packingseparate and independent packing
0x030x03 separate and mirroring packingseparate and mirroring packing
0x040x04 mixed and independent packingmixed and independent packing
0x050x05 mixed and mirroring packingmixed and mirroring packing
0x06-0xFF0x06-0xFF ReservedReserved
stereo_packing_type이 1이면, 셔플링 없이 좌우 영역(또는 상하 영역)에 위치한 투영의 기본 레이아웃(layout)을 가지는 투영된 프레임을 특정하는 것이다.If stereo_packing_type is 1, this specifies a projected frame having a basic layout of projections located in the left and right regions (or top and bottom regions) without shuffling.
stereo_packing_type이 2이면, 기본 레이아웃을 갖는 각 투영된 프레임은 좌측 또는 우측 영역에 위치한다. 그러면, 각 뷰에 대응하는 각 반-프레임(half frame)은 내부적으로 영역별 패킹에 의하여 인식된다. 각 뷰는 분리되고, 그러나, 각 뷰에 포함되는 로컬 영역들은 다시 샘플링되고, 동일한 뷰에 대응하는 절반의 패킹된 프레임에 배치된다. 분리-독립 패킹 layout은 빠른 추출과 코딩 효율성 증진에 효과적이다. 그러나, 각 뷰는 디코딩된 후 렌더링의 위하여 인식되어야 할 것이다.If stereo_packing_type is 2, each projected frame with a basic layout is located in the left or right area. Then, each half frame corresponding to each view is internally recognized by region-specific packing. Each view is separated, but the local regions included in each view are sampled again and placed in half packed frames corresponding to the same view. The separate-independent packing layout is effective for fast extraction and coding efficiency. However, each view will have to be recognized for rendering after being decoded.
stereo_packing_type이 3이면, 투영의 기본 레이아웃을 가지는 각 투영된 프레임은 좌측-우측 영역에 배치될 수 있다. 그러면, 각 뷰에 대응하는 각 반-프레임(half frame)은 내부적으로 영역별 패킹에 의하여 인식된다. 그리하여, 각 뷰는 분리되나, 각 뷰에 포함되는 로컬 영역들은 리샘플링되고, 동일한 뷰에 대응하는 절반의 패킹된 프레임에 배치된다. 분리-독립 패킹과의 차이점은 하나의 뷰의 영역별 패킹 방법과 다른 뷰의 영역별 패킹 방법이 동일하다는 것이다.If stereo_packing_type is 3, each projected frame having a basic layout of projection can be placed in the left-right region. Then, each half frame corresponding to each view is internally recognized by region-specific packing. Thus, each view is separated, but the local areas included in each view are resampled and placed in half packed frames corresponding to the same view. The difference from the separate-independent packing is that the packing method for each area of one view and the packing method for each area of another view are the same.
stereo_packing_type이 4이면, 하나의 뷰의 투영된 프레임의 각 영역은 리샘플링되고, 패킹된 프레임의 특정 위치에 배치된다. 동일한 패킹된 프레임에 투영된 좌측과 우측의 프레임들을 인식하기 위한 제한이 없다.If stereo_packing_type is 4, each area of the projected frame of one view is resampled and placed at a specific location of the packed frame. There is no restriction for recognizing left and right frames projected onto the same packed frame.
stereo_packing_type이 5이면, 좌측 뷰의 투영된 프레임의 각 영역은 리샘플링되고, 패킹된 프레임의 특정 위치에 배치된다. 그러면, 우측 뷰의 투영된 프레임의 대응되는 영역(같은 위치, 같은 사이즈)은 좌측 뷰와 동일하게 샘플링되고, 좌측 뷰의 투영된 영역의 오른쪽에 위치한다. (탐-바텀 스테레오스코픽이 사용될 때는, 우측 뷰 영역이 좌측 뷰의 패킹된 영역의 바텀 부분에 위치할 수 있다.)If stereo_packing_type is 5, each area of the projected frame of the left view is resampled and placed at a specific position of the packed frame. The corresponding area (same location, same size) of the projected frame of the right view is then sampled identically to the left view and is located to the right of the projected area of the left view. (When tom-bottom stereoscopic is used, the right view area may be located at the bottom portion of the packed area of the left view.)
도 12는 본 개시에 따른 비 영역별 패킹 방법에 사용되는 좌우 영역의 레이아웃을 설명하기 위한 예시도로서, 투영된 프레임들과, stereo_packing_type이 no region-wise packing(native), separate and independent packing, separate and mirroring packing, mixed and independent packing, mixed and mirroring packing일 때의 패킹된 프레임의 좌우 영역의 레이아웃을 나타내고 있다.12 is an exemplary view for explaining the layout of the left and right regions used in the non-regional packing method according to the present disclosure, in which the projected frames and the stereo_packing_type are no region-wise packing (native), separate and independent packing, and separate. The layout of the left and right regions of the packed frame in the case of and mirroring packing, mixed and independent packing, mixed and mirroring packing
도 13는 본 개시에 따른 비 영역별 패킹 방법에 사용되는 상하 영역의 레이아웃을 설명하기 위한 예시도로서, 투영된 프레임들과, stereo_packing_type이 no region-wise packing(native)(0x01), separate and independent packing(0x02), separate and mirroring packing(0x03), mixed and independent packing(0x04) 및 mixed and mirroring packing(0x05)일 때의 패킹된 프레임의 상하 영역의 레이아웃을 나타내고 있다.FIG. 13 is an exemplary diagram for describing a layout of an upper and lower regions used in a non-regional packing method according to the present disclosure, in which projected frames and stereo_packing_type are no region-wise packing (native) (0x01), separate and independent The layout of the upper and lower regions of the packed frame when packing (0x02), separate and mirroring packing (0x03), mixed and independent packing (0x04), and mixed and mirroring packing (0x05) is shown.
width_proj_frame은 투영된 프레임의 너비를 의미한다.width_proj_frame is the width of the projected frame.
height_proj_frame은 투영된 프레임의 높이를 의미한다.height_proj_frame means the height of the projected frame.
num_of_regions은 패치에 의하여 특정되는 패킹된 영역의 개수를 의미한다.num_of_regions means the number of packed regions specified by the patch.
uniform_region_size가 1이면, 투영된 프레임이 uniform_region_width와 uniform_region_height로 특정되는 동일한 사이즈의 영역들로 구분되는 것을 나타내고, uniform_region_size가 0이면, 투영된 프레임의 i번째 영역(i는 0부터 num_of_regons-1까지의 정수)이 proj_region_width[i] 와 proj_region_height[i]로 특정되는 사이즈에 의하여 특정되는 것을 나타낸다. If uniform_region_size is 1, the projected frame is divided into regions of the same size specified by uniform_region_width and uniform_region_height. If uniform_region_size is 0, the i-th region of the projected frame (i is an integer from 0 to num_of_regons-1). It is specified by the size specified by this proj_region_width [i] and proj_region_height [i].
uniform_region_width와 uniform_region_height는 투영된 프레임의 각 영역을 동일한 사이즈의 너비와 높이로 특정한다. uniform_region_width and uniform_region_height specify each region of the projected frame with the same width and height.
proj_region_width[i], 와 proj_region_height[i]는 투영된 프레임의 i번째 영역을 특정한다.proj_region_width [i] and proj_region_height [i] specify the i-th region of the projected frame.
patch_shape[i]는 패킹된 프레임으로 재배치될 i번째 영역의 모양을 특정한다.patch_shape [i] specifies the shape of the i-th region to be rearranged into the packed frame.
표 4는 patch_shape에 따른 투영된 프레임의 각 영역의 모양을 나타낸다.Table 4 shows the shape of each area of the projected frame according to patch_shape.
valuevalue patch_shapepatch_shape
0x000x00 reservedreserved
0x010x01 직사각형(rectangle)Rectangle
0x020x02 이등변삼각형(equilateral triangle)Equilateral triangle
0x030x03 직각삼각형(right-angled triangle)Right-angled triangle
0x04-0xFF0x04-0xFF ReservedReserved
도 14는 본 개시의 patch_shape에 따른 패치의 모양을 나타낸다.14 shows the shape of a patch according to patch_shape of the present disclosure.
도 14a는 patch_shape이 0x01(직사각형)인 것을 나타내고, 도 14b는 patch_shape이 0x02(이등변삼각형)인 것을 나타내고, 도 14c는 patch_shape이 0x03(직각삼각형)인 것을 나타내고, FIG. 14A shows that patch_shape is 0x01 (rectangle), FIG. 14B shows that patch_shape is 0x02 (isosceles triangle), FIG. 14C shows that patch_shape is 0x03 (right triangle),
patch_orientation[i]는 patch_shape[i]에 의하여 지시되는 원본 패치 모양(투영된 프레임의 i번째 영역)으로부터 회전되고 플립된 패치의 모양을 특정한다.patch_orientation [i] specifies the shape of the patch that has been rotated and flipped from the original patch shape (i-th area of the projected frame) indicated by patch_shape [i].
표 5는 patch_orientation[i]에 따른 회전 또는 플립의 의미를 나타낸다.Table 5 shows the meaning of the rotation or flip according to patch_orientation [i].
value 의미meaning
0x000x00 reservedreserved
0x010x01 no rotation or flipno rotation or flip
0x020x02 90도 회전(시계 반대 방향)90 degrees rotation(counter-clockwise)90 degrees rotation (counter-clockwise)
0x030x03 수평 플립 후 90도 회전(시계 반대 방향)90 degrees rotation(counter-clockwise) after horizontal flip90 degrees rotation (counter-clockwise) after horizontal flip
0x040x04 180도 회전(시계 반대 방향)180 degrees rotation(counter-clockwise)180 degrees rotation (counter-clockwise)
0x050x05 수평 플립 후 180도 회전(시계 반대 방향)180 degrees rotation(counter-clockwise) after horizontal flip180 degrees rotation (counter-clockwise) after horizontal flip
0x060x06 270도 회전(시계 반대 방향)270 degrees rotation(counter-clockwise)270 degrees rotation (counter-clockwise)
0x070x07 수평 플립 후 270도 회전(시계 반대 방향)270 degrees rotation(counter-clockwise) after horizontal flip270 degrees rotation (counter-clockwise) after horizontal flip
0x08-0xFF0x08-0xFF reservedreserved
patch_transform[i]는 patch_orientation[i]과 패킹된 프레임으로 재배치될 patch_shape[i]에 의하여 특정되는 영상 데이터의 회전 및 플립을 특정한다. patch_transform [i] specifies the rotation and flip of the image data specified by patch_orientation [i] and patch_shape [i] to be rearranged into the packed frame.
표 6는 patch_ transform[i]에 따른 회전 또는 플립의 의미를 나타낸다.Table 6 shows the meaning of rotation or flip according to patch_transform [i].
value 의미meaning
0x000x00 reservedreserved
0x010x01 no rotation or flipno rotation or flip
0x020x02 90도 회전(시계 반대 방향)90 degrees rotation(counter-clockwise)90 degrees rotation (counter-clockwise)
0x030x03 수평 플립 후 90도 회전(시계 반대 방향)90 degrees rotation(counter-clockwise) after horizontal flip90 degrees rotation (counter-clockwise) after horizontal flip
0x040x04 180도 회전(시계 반대 방향)180 degrees rotation(counter-clockwise)180 degrees rotation (counter-clockwise)
0x050x05 수평 플립 후 180도 회전(시계 반대 방향)180 degrees rotation(counter-clockwise) after horizontal flip180 degrees rotation (counter-clockwise) after horizontal flip
0x060x06 270도 회전(시계 반대 방향)270 degrees rotation(counter-clockwise)270 degrees rotation (counter-clockwise)
0x070x07 수평 플립 후 270도 회전(시계 반대 방향)270 degrees rotation(counter-clockwise) after horizontal flip270 degrees rotation (counter-clockwise) after horizontal flip
0x08-0xFF0x08-0xFF reservedreserved
packed_region_width[i]와 packed_region_height[i]는 투영된 프레임의 i번째 영역에 상응하는 패킹된 프레임의 패킹된 영역의 너비와 높이를 특정한다.packed_region_width [i] and packed_region_height [i] specify the width and height of the packed region of the packed frame corresponding to the i th region of the projected frame.
packed_region_top_left_x[i]와 packed_region_top_left_y[i]는 투영된 프레임의 i번째 영역에 상응하는 패킹된 프레임의 패킹된 영역의 상좌측 구석(top-left corner)의 수평 및 수직 좌표를 특정한다.packed_region_top_left_x [i] and packed_region_top_left_y [i] specify the horizontal and vertical coordinates of the top-left corner of the packed region of the packed frame corresponding to the i th region of the projected frame.
도 15는 본 개시에 따른 등장방 투영(equirectangular projection, ERP)에서 위도에 따라 영역의 크기를 조절하고 재배치하는 영역별 패킹 방법을 설명하기 위한 예시도이다. FIG. 15 is an exemplary diagram for explaining a region-specific packing method of adjusting and rearranging an area according to latitude in an isotropic projection (ERP) according to the present disclosure.
OMAF는 리던던트 영역을 제거함으로써, 투영된 코딩 효율을 향상시키는 영역별 패킹 방법을 포함시켰다. 예컨대, 등장방 투영(equirectangular projection, ERP)는 구의 각 패럴렐(parallel)을 스티치하여, 구면을 평면 사각 영역으로 변환시킨다. 스티칭의 범위는 극 방향으로 극도로 증가한다. OMAF incorporates a region-by-region packing method that removes redundant regions, thereby improving the projected coding efficiency. For example, an isotropic projection (ERP) stitches each parallel of the sphere, transforming the sphere into a planar rectangular region. The range of stitching increases extremely in the polar direction.
도 15를 참고하면, 극 지역의 영역을 감소시킴으로써, 투영된 프레임의 코딩 효율을 향상시킬 수 있다.Referring to FIG. 15, the coding efficiency of the projected frame may be improved by reducing the region of the polar region.
예컨대, ERP에서 고위도 지역(60도 초과 또는 -60도 미만)에 해당하는 제1 영역 및 제5 영역은 1:3 비율로 샘플링하고, 중위도 지역(30도 초과 60도 이하, 또는 -30도 미만 -60도 이상)에 해당하는 제2 영역 및 제4 영역은 2:3 비율로 샘플링하고, 저위도 지역(위도가 30도 이하 -30도 이상)에 해당하는 제3 영역은 1:1 비율로 샘플링하고, 샘플링된 영역들을 도 15(c)와 같이 재배치함으로써, 패킹된 프레임을 획득할 수 있다.For example, in the ERP, the first and fifth regions corresponding to the high latitude region (greater than 60 degrees or less than -60 degrees) are sampled at a 1: 3 ratio, and the middle latitude region (more than 30 degrees and less than 60 degrees, or less than -30 degrees). The second area and the fourth area corresponding to -60 degrees or more) are sampled at a 2: 3 ratio, and the third area corresponding to the low latitude area (less than 30 degrees -30 degrees or more) is sampled at a 1: 1 ratio In addition, the packed frame may be obtained by rearranging the sampled regions as shown in FIG. 15C.
도 16은 본 개시에 따른 뷰포트 종속적인 스트리밍을 위한 정육면체 투영에 대한 영역별 패킹을 설명하기 위한 예시도이다.FIG. 16 is an exemplary diagram for explaining region-specific packing for a cube projection for viewport dependent streaming according to the present disclosure.
뷰포트 종속적인 스트리밍에서, 투영된 프레임의 비트레이트를 감소시키기 위하여, 단지 현재 뷰포트 영역은 고품질로 인코딩되고, 다른 영역들은 저품질로 인코딩된다. 도 16은 전면과 1/5의 다운 샘플링된 5개의 면들(좌측면, 우측면, 후면, 상면, 하면)로 구성되는 투영된 프레임의 정육면체 맵을 위한 영역별 패킹의 예시도를 나타낸다.In viewport dependent streaming, only the current viewport region is encoded with high quality, and other regions are encoded with low quality, in order to reduce the bitrate of the projected frame. FIG. 16 shows an exemplary view of the area-by-area packing for a cube map of a projected frame consisting of a front face and five down sampled faces (left side, right side, back side, top side, bottom side) of 1/5.
이러한 경우들은 사각형을 사각형으로 매핑함으로써, 일반적으로 변환될 수 있다. 그러나, 샘플링 률이 크게 바뀌기 때문에, 사각형 기반 매핑은 경계에서 서브 영역 사이에 불연속성을 야기할 수 있다. 이러한 불연속성은 코딩 효율을 감소시키고, 시각적 결합을 가지고 있다. 이 이유 때문에, 투영된 프레임의 코딩 효율을 증진시키기 위하여, 더 유연한 영역별 패킹이 요구된다.  These cases can generally be converted by mapping a rectangle to a rectangle. However, because the sampling rate changes significantly, square-based mapping can cause discontinuities between subregions at the boundary. This discontinuity reduces coding efficiency and has visual coupling. For this reason, in order to improve the coding efficiency of the projected frame, more flexible area-specific packing is required.
사다리꼴 기반 영역별 패킹(trapzoid based region-wise packing)Trapzoid based region-wise packing
영역별 패킹의 유연성을 향상시키기 위하여, 우리는 사각형을 사다리꼴로 매핑하는 방법(rectangle-to-trapezoid mapping)을 제안한다. 상기 rectangle-to-trapezoid mapping은 다양하고 효과적인 영역별 패킹 방법을 가능하게 한다. 사라리꼴이 짧은 변이 1 픽셀이면 삼각형이 된다.In order to improve the flexibility of packing by region, we propose a rectangle-to-trapezoid mapping. The rectangle-to-trapezoid mapping enables various and effective area-specific packing methods. If the short edge is 1 pixel, it becomes a triangle.
도 17은 본 개시에 따른, ERP 영상을 패킹하는 방법을 설명하기 위한 예시도이다.17 is an exemplary diagram for explaining a method of packing an ERP image according to the present disclosure.
사각 ERPSquare ERP
상술한 바와 같이, ERP는 극도로 늘어나는 극 영역을 생성한다. 결론적으로 극 지역의 리던던시 픽셀은 불필요하게 비디오의 코딩 효율을 감소시킨다.As mentioned above, ERP creates an extremely stretched pole region. As a result, polarity redundancy pixels unnecessarily reduce the coding efficiency of the video.
도 17은 등장방 파노라마(equirectangular panorama)의 극 영역의 샘플링율을 감소시키는 영역별 패킹 접근을 설명하고 있다. 투영된 프레임은 먼저 8개의 사각 서브 영역들로 분할되고, 줄 별 다운 샘플링을 사용하여, 각 영역은 삼각형 모양으로 변환되고, 사각형 포맷을 형성하도록 재배치된다.FIG. 17 illustrates a region-specific packing approach that reduces the sampling rate of the pole region of an isquirectangular panorama. The projected frame is first divided into eight rectangular sub-regions, and using line-down downsampling, each region is converted into a triangular shape and rearranged to form a rectangular format.
도 17의 가운데 그림을 참고하면, 본 개시에 따른 ERP 영상을 패킹하는 방법의 일실시예는 극 영역의 픽셀의 개수를 극도로 감소시키고, 반면, 상대적으로 적도 영역은 유지시킨다. 더욱이 패키왼 프레임은 서브 영역 사이에 불연속 없이 사각 레이아웃에 의하여 표현되고, 블랭크 픽셀이 신 정보를 포함하지 아니한다. Referring to the center of FIG. 17, one embodiment of a method of packing an ERP image according to the present disclosure extremely reduces the number of pixels in the polar region, while maintaining the relatively equatorial region. Furthermore, the packaged frame is represented by a rectangular layout without discontinuities between sub-regions, and blank pixels do not contain scene information.
도 18은 본 개시에 따른 ERP 영상을 패킹하는 방법을 설명하기 위한 예시도 이다. 18 is an exemplary diagram for describing a method of packing an ERP image according to the present disclosure.
도 17과 같은 방법에 따라서, ERP 영상을 패킹할 경우, 각 영역의 경계에서 연속성이 유지되는 장점이 있으므로, 디패킹할 때, 경계에서의 왜곡을 완화시킬 수 있다. 도 18의 방법에 따라 패킹할 경우, 각 영역의 경계에서 영상의 연속성을 유지시킬 수 있는 장점이 있다.According to the method as shown in FIG. 17, since the continuity is maintained at the boundary of each region when the ERP image is packed, distortion at the boundary can be reduced when depacking. When packing according to the method of FIG. 18, there is an advantage in that continuity of an image can be maintained at the boundary of each region.
도 19는 본 개시에 따른 등장방 투영을 정육면체와 유사한 레이아웃으로 변환하는 방법을 설명하기 위한 예시도이다.19 is an exemplary diagram for explaining a method of converting an isotonic projection according to the present disclosure into a layout similar to a cube.
정육면체 유사 ERPCube-like ERP
사각형을 삼각형으로 매핑하는 방법을 사용함으로써, 등장방 투영된 프레임은 정육면체 같은 레이아웃으로 변환될 수 있다. By using a method of mapping a rectangle into a triangle, an isotropic projected frame can be converted into a cube-like layout.
도 19을 참고하면, 상단 영역(top region)과 하단 영역(bottom region)(즉, 극 영역들)은 각각 4개의 서브 영역들로 분리되고, 각 서브 영역은 삼각형 영역으로 변환되고, 정육면체와 같은 레이아웃으로 재배치된다. Referring to FIG. 19, the top region and the bottom region (ie, the polar regions) are each divided into four subregions, each subregion is converted into a triangular region, and the like cube. It is relocated to the layout.
도 20은 본 개시에 따른 등장방 투영을 정육면체와 유사한 레이아웃으로 변환하는 다른 실시예를 설명하기 위한 예시도이다.20 is an exemplary diagram for explaining another embodiment of converting an isotonic projection according to the present disclosure into a layout similar to a cube.
도 19은 4x3 정육면체 맵 레이아웃의 예이고, 도 20는 3x2 정육면체 맵 레이아웃의 예이다.19 is an example of a 4x3 cube map layout, and FIG. 20 is an example of a 3x2 cube map layout.
도 21은 본 개시에 따른 ERP 영상은 정육면체 유사 ERP로 변환하는 방법을 설명하기 위한 예시도이다.21 is an exemplary diagram for describing a method of converting an ERP image into a cube-like ERP according to the present disclosure.
도 21은 ERP 영상과, 도 20에 따른 4x3 정육면체 맵 레이아웃과, 도 20에 따른 3x2 정육면체 맵 레이아웃을 나타내고 있다.21 shows an ERP image, a 4x3 cube map layout according to FIG. 20, and a 3x2 cube map layout according to FIG. 20.
2.3. 사각뿔대 패킹 방법(잘라낸 사각 피라미드, truncated square pyramid, TSP)2.3. Square pyramid packing method (truncated square pyramid, TSP)
도 22는 본 개시에 따른 TSP 패킹 방법을 설명하기 위한 예시도이다.22 is an exemplary view for explaining a TSP packing method according to the present disclosure.
TSP 패킹 방법에 의하여, 정육면체 맵 프레임은 TSP로 변환될 수 있다.By the TSP packing method, the cube map frame can be converted to a TSP.
도 22를 참고하면, 예컨대, Front는 1:1 비율로 샘플링된 정사각형일 수 있고, back은 1:9 비율로 샘플링된 정사각형일 수 있고, right, left, top, bottom은 2:9 비율로 샘플링된 등변 사다리꼴일 수 있다.Referring to FIG. 22, for example, the front may be a square sampled at a 1: 1 ratio, the back may be a square sampled at a 1: 9 ratio, and the right, left, top, and bottom may be sampled at a 2: 9 ratio. Can be trapezoidal.
도 22의 TSP 패킹 방법에 따르면 경계에 왜곡을 감소시키는 효과가 있다.According to the TSP packing method of FIG. 22, there is an effect of reducing distortion at a boundary.
본 개시에 의해 제안된 파라미터들을 설명한다.The parameters proposed by the present disclosure are described.
도 23은 본 개시에 따른 TSP 패킹 방법의 일실시예를 설명하기 위한 예시도이다.23 is an exemplary view for explaining an embodiment of a TSP packing method according to the present disclosure.
제안된 사각형-사다리꼴 변환 매핑을 지원하기 위하여, 우리는 4개의 파라미터를 포함하도록 제안한다. 패킹된 프레임의 사각 영역은 4개의 파라미터에 의하여 정의된다. 4개의 파라미터는 상단 좌측 꼭지점의 수평 좌표 및 수직 좌표 (pack_reg_left, pack_reg_top)과 너비 및 높이 (pack_reg_width, pack_reg_height)이다.In order to support the proposed square- trapezoidal transformation mapping, we propose to include four parameters. The rectangular area of the packed frame is defined by four parameters. The four parameters are the horizontal and vertical coordinates (pack_reg_left, pack_reg_top) and the width and height (pack_reg_width, pack_reg_height) of the top left vertex.
그러면, 사각 영역의 내부에서, 직사각형의 변을 시작점(start point) (2310)의 위치를 나타내는 오프셋 정보(pack_sb_offset)(2320)와 길이(pack_sb_length) (2330)에 의하여 표현되는 사다리꼴의 더 짧은 변으로서 설정하여 사다리꼴 영역 정의한다. Then, inside the rectangular area, the rectangle side is defined as the shorter side of the trapezoid represented by the offset information (pack_sb_offset) 2320 and the length (pack_sb_length) 2330 indicating the position of the start point 2310. Define the trapezoidal area by setting.
도 24는 본 개시에 따른 TSP 패킹 방법의 다른 실시예를 설명하기 위한 예시도이다.24 is an exemplary view for explaining another embodiment of a TSP packing method according to the present disclosure.
도 24를 참고하면, 어떤 변이 짧은 변이 되는지 지시하기 위하여, 다른 파라미터(pack_sb_indicator)가 정의된다. 예컨대, pack_sb_indicator이 1이면, 상변이 더 짧을 수 있고, pack_sb_indicator이 2이면, 하변이 더 짧을 수 있고, pack_sb_indicator이 3이면, 좌변이 더 짧을 수 있고, pack_sb_indicator이 4이면, 우변이 더 짧을 수 있다. Referring to FIG. 24, another parameter pack_sb_indicator is defined to indicate which side is a short side. For example, if pack_sb_indicator is 1, the upper side may be shorter, if pack_sb_indicator is 2, the lower side may be shorter, if pack_sb_indicator is 3, the left side may be shorter, and if pack_sb_indicator is 4, the right side may be shorter.
구문construction
표 7은 TSP 패킹 방법을 실시하기 위한 구문을 나타낸다.Table 7 shows the syntax for implementing the TSP packing method.
Figure PCTKR2017014742-appb-T000002
Figure PCTKR2017014742-appb-T000002
의미meaning
proj_frame_width는 투영된 프레임의 너비를 특정한다.proj_frame_width specifies the width of the projected frame.
proj_frame_height는 투영된 프레임의 높이를 특정한다. proj_frame_height specifies the height of the projected frame.
number_of_regions 투영된 프레임의 서브 영역의 개수를 특정한다. number_of_regions Specifies the number of subregions of the projected frame.
proj_reg_top[n], proj_reg_left[n]는 투영된 프레임의 n번째 직사각형 서브 영역의 좌측 상단 꼭지점의 x, y 좌표를 특정하고, proj_reg_width[n], proj_reg_height[n]는 투영된 프레임의 n번째 직사각형 서브 영역의 너비와 높이를 특정한다.proj_reg_top [n], proj_reg_left [n] specify the x and y coordinates of the upper left corner of the nth rectangular subarea of the projected frame, and proj_reg_width [n], proj_reg_height [n] are the nth rectangular subareas of the projected frame Specify the width and height of the area.
pack_reg_top[n], pack_reg_left[n]은 패킹된 프레임의 n번째 직사각형 서브 영역의 좌측 상단 꼭지점의 x, y 좌표를 특정하고, pack_reg_width[n], pack_reg_height[n]는 패킹된 프레임의 n번째 직사각형 서브 영역의 너비와 높이를 특정한다. pack_reg_top [n], pack_reg_left [n] specify the x and y coordinates of the upper left corner of the nth rectangular subarea of the packed frame, and pack_reg_width [n], pack_reg_height [n] specify the nth rectangular sub of the packed frame Specify the width and height of the area.
pack_sb_offset[n]은 투영된 프레임의 n번째 직사각형 서브 영역의 좌측 상단 꼭지점으로부터 더 짧은 변의 시작점까지의 거리를 특정한다. pack_sb_offset [n] specifies the distance from the upper left vertex of the nth rectangular sub-region of the projected frame to the start of the shorter side.
pack_sb_length[n]는 투영된 프레임의 n번째 직사각형 서브 영역의 더 짧은 변의 길이를 특정한다. pack_sb_length [n] specifies the length of the shorter side of the nth rectangular subregion of the projected frame.
pack_sb_indicators[n]는 투영된 프레임의 n번째 직사각형 서브 영역에 대응하는 패킹된 프레임의 n번째 사다리꼴의 서브 영역의 더 짧은 변이 있는 위치를 특정한다. pack_sb_indicators[n]가 0보다 크면, 투영된 프레임의 n번째 직사각형 서브 영역은 사다리꼴이고, pack_sb_indicators[n]가 0이면, 직사각형이다. 표 8은 pack_sb_indicators[n]에 따른 더 짧은 변의 위치를 나타낸다.pack_sb_indicators [n] specifies the location with the shorter side of the nth trapezoidal subregion of the packed frame that corresponds to the nth rectangular subregion of the projected frame. If pack_sb_indicators [n] is greater than zero, the nth rectangular subregion of the projected frame is trapezoidal, and if pack_sb_indicators [n] is zero, it is rectangular. Table 8 shows the positions of the shorter sides according to pack_sb_indicators [n].
valuevalue pack_sb_indicators[n]pack_sb_indicators [n]
00 no shorter base (rectangular region)no shorter base (rectangular region)
1One top side top side
22 bottom side bottom side
33 left side left side
44 right sideright side
proj_reg_rotation[n]은 투영된 프레임의 n번째 서브 영역에 대응하는 이미지 데이터의 시계 방향 회전을 특정한다. 표 9는 proj_reg_rotation[n]에 따른 회전하는 각도를 의미한다.proj_reg_rotation [n] specifies the clockwise rotation of the image data corresponding to the nth sub-region of the projected frame. Table 9 shows rotation angles according to proj_reg_rotation [n].
valuevalue pack_sb_indicators[n]pack_sb_indicators [n]
00 no rotationno rotation
1One 90 degrees rotation90 degrees rotation
22 180 degrees rotation180 degrees rotation
33 270 degrees rotation270 degrees rotation
다수의 어안 카메라를 사용하는 VR 360 시스템에서, 어안 카메라들에 의하여 촬영되는 원형 이미지들은 직접 인코딩되고 전송된다. 수신측에서는 디코딩된 이미지/비디오는 사용자가 의도한 뷰포트에 따라 직접 렌더링된다. 등장방 투영 또는 정육면체 맵 투영과 같이 중간 투영 방법 없이 촬영된 이미지들이 직접 렌더링되기 때문에, 이 방법은 낮은 지연 라이브 스트리밍 또는 고품질 360 비디오 전달에 대하여 유용하다. In a VR 360 system using multiple fisheye cameras, the circular images taken by the fisheye cameras are directly encoded and transmitted. On the receiving side, the decoded image / video is rendered directly according to the viewport intended by the user. This method is useful for low latency live streaming or high quality 360 video delivery because images taken without intermediate projection methods, such as isotropic or cube map projection, are rendered directly.
이전 회의에서, 모노스코픽/스테레오스코픽, 영역별 패킹 및 어안 카메라 및 렌즈 파라미터들의 개념 및 지시자가 합의되었다. 모노스코픽/스데레오스코픽 패킹 배열이 360도 비디오의 미리 스티칭된 패킹(prestitched packing of 360 video)에서 고려되어 왔더라도, 다수의 스테레오스코픽 어안 이미지들의 패킹은 아직 지목되지(addressed) 않았다. 직사각형 또는 삼각형 영역은 유연하기 패킹될 수 있는 360도 비디오의 미리 스티칭된 패킹과 달리, 전형적인 어안 카메라는 원 형태의 비디오 데이터에 주로 제안된다.In previous meetings, the concepts and indicators of monoscopic / stereoscopic, regional packing and fisheye camera and lens parameters were agreed. Although monoscopic / stereoscopic packing arrangements have been considered in the prestitched packing of 360 video, the packing of multiple stereoscopic fisheye images has not yet been addressed. Unlike pre-stitched packing of 360 degree video where rectangular or triangular areas can be flexibly packed, typical fisheye cameras are mainly proposed for circular video data.
어안 비디오를 위한 스테레오스코픽 패킹의 다양한 레이아웃Various layouts of stereoscopic packing for fisheye video
도 25는 본 개시에 따른 두개의 원형 이미지을 포함하는 전형적인 어안 비디오의 예시도이다.25 is an illustration of a typical fisheye video comprising two circular images in accordance with the present disclosure.
도 26a는 본 개시에 따른 상하 스테레오 포맷의 스테레오스코픽 어안 비디오의 예시도이다. 도 26b는 본 개시에 따른 좌우 스테레오 포맷의 스테레오스코픽 어안 비디오의 예시도이다.26A is an exemplary diagram of stereoscopic fisheye video in a vertical stereo format according to the present disclosure. 26B is an illustration of stereoscopic fisheye video in left and right stereo format according to the present disclosure.
도 27은 본 개시에 따른 멀티뷰를 위한 페어별 포맷을 가지는 스테레오스코픽 어안 비디오의 예시도이다.27 is an exemplary diagram of stereoscopic fisheye video having a pair-by-pair format for multiview according to the present disclosure.
도 28은 본 개시에 따른 멀티뷰를 위한 그룹별 포맷을 가지는 스테레오스코픽 어안 비디오의 예시도이다.28 is an exemplary diagram of stereoscopic fisheye video having a group-by-group format for multiview according to the present disclosure.
전방향 어안 비디오Omnidirectional Fisheye Video
투영과 영역별 패킹 프로세서 없이, 어안 카메라들에 의하여 촬영된 다수의 원형 이미지들은 이미지 프레임에 직접 투영될 수 있다. 상기 이미지 프레임은 전방향 어안 비디오를 포함할 수 있다. 수신측에서, 디코딩된 전방향 어안 비디오는 시그널된 어안 비디오 파라미터들을 사용하여 사용자의 의도된 뷰포트에 따라 스티치되고 렌더링된다. 상기 어안 비디오 파라미터들은 로컬 시야각(FOV, field of view)을 가지는 렌즈 왜곡 정정(LDC, lens distortion correction) 파라미터들, RGB(red-green-blue) 이득들을 가지는 렌즈 쉐이딩 보상(lens shading compensation) 파라미터들, 뷰 정보의 디스플레이된 필드, 카메라 외부 파라미터들(camera extrinsic parameters) 중 적어도 하나를 포함한다.Without projection and region-specific packing processors, multiple circular images taken by fisheye cameras can be projected directly onto image frames. The image frame may comprise omnidirectional fisheye video. At the receiving side, the decoded omnidirectional fisheye video is stitched and rendered according to the user's intended viewport using the signaled fisheye video parameters. The fisheye video parameters include lens distortion correction (LDC) parameters with a local field of view (FOV), lens shading compensation parameters with red-green-blue gains. At least one of a displayed field of view information and a camera extrinsic parameter.
구문(syntax)Syntax
표 10은 멀티뷰에 대한 스테레오스코픽 어안 비디오를 위한 구문을 나타낸다.Table 10 shows syntax for stereoscopic fisheye video for multiview.
Figure PCTKR2017014742-appb-T000003
Figure PCTKR2017014742-appb-T000003
Figure PCTKR2017014742-appb-I000001
Figure PCTKR2017014742-appb-I000001
도 29는 본 개시에 따른 어안 카메라를 설명하기 위한 예시도 이다. 각 용어의 의미는 다음과 같다.29 is an exemplary diagram for describing a fisheye camera according to the present disclosure. The meaning of each term is as follows.
의미(semantics)Semantics
num_circular_images는 각 샘플이의 부호화된 그림(coded picture)에서 원형 이미지들의 개수를 특정한다. num_circular_images가 2일 수 있고, 다른 0이 아닌 정수일 수 있다. num_circular_images specifies the number of circular images in the coded picture of each sample. num_circular_images can be 2 or any other nonzero integer.
image_center_x는 루마 샘플들에서 본 구문이 적용되는 각 샘플들의 부호화된 그림에서 원형 이미지의 중심의 수평 좌표를 지시하는 고정점 16,16 값이다. image_center_x is a fixed point 16,16 value indicating the horizontal coordinate of the center of the circular image in the encoded picture of each sample to which the present syntax is applied in the luma samples.
image_center_y는 루마 샘플들에서 본 구문이 적용되는 각 샘플들의 부호화된 그림에서 원형 이미지의 중심의 수직 좌표를 지시하는 고정점 16,16 값이다. image_center_y is a fixed point 16,16 value indicating the vertical coordinate of the center of the circular image in the encoded picture of each sample to which the present syntax is applied in the luma samples.
full_radius는 루마 샘플들에서 원형 이미지의 중심에서 완전 라운드 이미지의 엣지까지의 반경을 지시하는 고정점 16,16 값이다. full_radius is a fixed point 16,16 value that indicates the radius from the center of the circular image to the edge of the full round image in luma samples.
frame_radius는 루마 샘플들에서 원형 이미지의 중심에서 가장 가까운 이미지 경계의 엣지까지의 반경을 지시하는 고정점 16,16 값이다. 원형 어안 이미지는 카메라 프레임에 의하여 잘라질 수 있고, frame_radius는 사용할 수 없는 픽셀들을 지시하는 원의 반경이다.frame_radius is a fixed point 16,16 value that indicates the radius from the center of the circular image to the edge of the nearest image boundary in luma samples. The circular fisheye image can be cropped by the camera frame, and frame_radius is the radius of the circle indicating the pixels that are not available.
scene_radius는 루마 샘플들에서 원형 이미지의 중심에서 가장 가까운 이미지의 영역의 엣지까지의 반경을 지시하는 고정점 16,16 값이다. 상기 이미지 영역은 카메라 바디 자체로부터 장애물이 없는 것이 보장되고, 스티칭을 위하여, 너무 큰 렌즈 왜곡이 없는 영역이다. scene_radius is a fixed point 16,16 value that indicates the radius from the center of the circular image to the edge of the region of the nearest image in the luma samples. The image area is an area free of obstructions from the camera body itself, and for stitching, there is no lens distortion too large.
도 30은 본 개시에 따른 어안 카메라에 있어서, 두개의 어안 이미지들을 위한 디스플레이된 FOV를 나타낸다.30 shows a displayed FOV for two fisheye images, in a fisheye camera according to the present disclosure.
image_rotation는 각도 단위로 원형 이미지의 회전 양을 지시하는 고정점 16.16 값이다. 다른 비디오 카메라 제조자들은 각 촬영된 개별 어안 이미지를 위하여, 다른 좌표계 또는 다른 레이아웃을 사용한다. 이미지는 -90도부터 +90도까지 또는 -180도부터 +180도까지의 범위를 갖는다. image_rotation is a fixed point 16.16 that indicates the amount of rotation of the circular image in degrees. Different video camera manufacturers use different coordinate systems or different layouts for each photographed individual fisheye image. The image can range from -90 degrees to +90 degrees or from -180 degrees to +180 degrees.
image_flip는 이미지가 플립되었는지, 얼마나 플립되었는지를 지시한다. 그리하여, 역 플립 동작이 적용될 필요가 있다. image_flip이 0이면, 이미지는 플립되지 아니하였다. image_flip이 1이면, 이미지는 수직으로 플립되었다. image_flip이 2이면, 이미지는 수평으로 플립되었다. image_flip이 3이면, 이미지는 수평으로 플립되고, 수직으로 플립되었다image_flip indicates whether the image is flipped or how flipped. Thus, the reverse flip operation needs to be applied. If image_flip is 0, the image was not flipped. If image_flip is 1, the image is flipped vertically. If image_flip is 2, the image is flipped horizontally. If image_flip is 3, the image is flipped horizontally and flipped vertically
image_scale_axis_angle, image_scale_x, 및 image_scale_y는 이미지가 어떤 축을 따라서, 스케일링되었는지 얼마나 스케일링되었는지 지시하는 고정점 16.16 값이다. 각도 단위로 image_scale_axis_angle의 값을 지시함으로써, 단일각에 의하여 상기 축이 정의된다. 0도의 각(image_scale_axis_angle)은 수평 벡터가 완전 수평이고, 수직 벡터가 완전 수직이라는 것을 의미한다. The values of image_scale_x 및 image_scale_y는 각각 상기 축에 평행하고 수직이 방향들의 스케일링 비율을 지시한다.image_scale_axis_angle, image_scale_x, and image_scale_y are fixed point 16.16 values that indicate along which axis the image is scaled and how scaled. By indicating the value of image_scale_axis_angle in angle units, the axis is defined by a single angle. An angle of zero (image_scale_axis_angle) means that the horizontal vector is completely horizontal and the vertical vector is completely vertical. The values of image_scale_x and image_scale_y indicate the scaling ratios of the directions parallel and perpendicular to the axis, respectively.
field_of_view는 각도 단위의 어안 렌즈의 FOV를 지시하는 고정점 16.16 값이다. 반구형 어안 렌즈의 전형적인 값(field_of_view)은 180도이다.field_of_view is a fixed point 16.16 value indicating the FOV of the fisheye lens in angle units. The typical value (field_of_view) of the hemispherical fisheye lens is 180 degrees.
num_angle_for_displaying_fov는 각도의 개수를 지시한다. num_angle_for_displaying_fov가 12이면, 어안 이미지는 12개의 섹터로 분할된다. 각 섹터의 각은 30도이다. 디스플레이되는 FOV와 중첩된 FOV의 값은 시계 방향으로 정의된다.num_angle_for_displaying_fov indicates the number of angles. If num_angle_for_displaying_fov is 12, the fisheye image is divided into 12 sectors. The angle of the angular sector is 30 degrees. The value of the FOV superimposed with the displayed FOV is defined clockwise.
displayed_fov는 렌더링되고 디스플레이된 FOV와 각 어안 카메라 이미지의 상응하는 이미지 지역을 지시한다. displayed_fov indicates the rendered and displayed FOV and the corresponding image area of each fisheye camera image.
overlapped_fov는 다수의 원형 이미지들 사이의 FOV의 측면에서 중첩된 영역들을 지시한다. overlapped_fov indicates overlapped regions in terms of FOV between multiple circular images.
상기 파라미터들은 어안 이미지들 사이의 관계를 나타낸다. 반면, scene_radius가 어안 렌즈와 카메라 바디 사이의 관계를 나타낸다.The parameters indicate a relationship between fisheye images. On the other hand, scene_radius represents the relationship between the fisheye lens and the camera body.
num_circular_images의 값이 2이면, displayed_fov의 기본값은 180도이다.If the value of num_circular_images is 2, the default value of displayed_fov is 180 degrees.
그러나, 상기 값들은 렌즈와 콘텐츠의 특성에 종속적으로 변화될 수 있다.However, the values may vary depending on the characteristics of the lens and the content.
도 31을 참고하면, 예컨대, displayed_fov 값들을 가지는 스티칭 품질이 왼쪽 카메라는 170도이고, 오른쪽 카메라는 190도로 기본값(180도)보다 더 좋은 품질이라면, 갱신된 displayed_fov의 값들이 될 수 있다. Referring to FIG. 31, for example, if the stitching quality having displayed_fov values is 170 degrees for the left camera and the quality for the right camera is better than the default value (180 degrees) of 190 degrees, the values of the displayed display_fov may be updated.
도 31은 본 개시에 따른 어안 카메라에 있어서, 다수의 어안 이미지들을 위한 디스플레이된 FOV와 중첩된 FOV(overlapped FOV)를 나타낸다.FIG. 31 illustrates an overlapped FOV with a displayed FOV for multiple fisheye images, in a fisheye camera according to the present disclosure.
그러나, 다수의 어안 이미지들의 경우, 단일한 displayed_fov 값은 각 어안 이미지의 정확한 지역을 설명할 수 없다. However, for multiple fisheye images, a single displayed_fov value may not account for the exact region of each fisheye image.
도 31을 참고하면, displayed_fov (어두운 부분)은 방향에 따라서 다양하다. 방향에 따른 displayed_fov를 설명하기 위하여, num_angle_for_displaying_fov가 도입되고, displayed_fov, overlapped_fov가 시계 방향으로 정의된다.Referring to FIG. 31, displayed_fov (dark portion) varies depending on the direction. In order to explain displayed_fov along the direction, num_angle_for_displaying_fov is introduced, and displayed_fov and overlapped_fov are defined in the clockwise direction.
도 32는 본개시에 따른 어안 카메라의 중심을 설명하기 위한 예시도이다.32 is an exemplary view for explaining the center of a fisheye camera according to the present disclosure.
num_polynomial_coefficients는 다항식의 존재하는 계수의 개수를 특정하는 정수이다. 다항식의 계수의 목록 polynomial_coefficient_K는 어안 공간을 왜곡되지 아니한 평면 이미지로의 변환을 설명하는 다항식의 계수들을 나타내는 고정점 16.16 값이다. 다항식의 설명은 Scaramuzza 등에 의하여 작업된 "전방향 카메라 캘리브레이션"에서 찾을 수 있다.num_polynomial_coefficients is an integer specifying the number of coefficients present in the polynomial. List of coefficients of polynomial polynomial_coefficient_K is a fixed point 16.16 value representing the coefficients of the polynomial describing the transformation of the fisheye space into an undistorted plane image. An explanation of the polynomial can be found in "Omnidirectional Camera Calibration" by Scaramuzza et al.
num_local_fov_region는 다른 시야각(field of view, FOV)을 가지는 로컬 피팅(fitting) 영역의 개수를 지시한다.num_local_fov_region indicates the number of local fitting regions having different field of view (FOV).
Start_radius, end_radius, start_angle, 및 end_angle는 국부적으로(locally) 디스플레이하기 위한 실제(actual) FOV를 변화시키는 로컬 피팅(fitting)/워핑(warping)을 위한 영역을 지시한다.Start_radius, end_radius, start_angle, and end_angle indicate an area for local fitting / warping that changes the actual FOV for locally displaying.
radius_delta는 각각의 반경을 위한 다른 FOV를 나타내기 위한 델타값을 지시한다.radius_delta indicates a delta value for indicating a different FOV for each radius.
angle_delta는 각각의 각도를 위한 다른 FOV를 나타내기 위한 델타값을 지시한다. angle_delta indicates a delta value for indicating a different FOV for each angle.
local_fov_weight는 start_radius, end_radius, start_angle, end_angle, the angle index i 및 the radius index j에 의하여 특정되는 포지션의 FOV를 위한 가중치 값을 지시한다.local_fov_weight indicates a weight value for the FOV of the position specified by start_radius, end_radius, start_angle, end_angle, the angle index i and the radius index j.
도 33은 본 개시에 따른 로컬 시야각(local FOV)에 관한 파라미터들을 설명하기 위한 예시도이다.33 is an exemplary diagram for describing parameters regarding a local field of view according to the present disclosure.
도 34는 본 개시의 부분 실시예에 따른 로컬 시야각의 예시도이다.34 is an illustration of a local viewing angle in accordance with some embodiments of the present disclosure.
num_polynomial_coefficeients_lsc는 렌즈 쉐이딩 커브의 다항식 근사의 오더일 수 있다.num_polynomial_coefficeients_lsc may be an order of polynomial approximation of the lens shading curve.
polynomial_coefficient_K_lsc_R는 고정점 16.16 포맷에서 레드 칼라 컴포넌트를 위한 렌즈 쉐이딩 커브로 근사한 다항식 계수일 수 있다.  polynomial_coefficient_K_lsc_R may be a polynomial coefficient approximating the lens shading curve for the red color component in the fixed point 16.16 format.
polynomial_coefficient_K_lsc_G는 고정점 16.16 포맷에서 그린 칼라 컴포넌트를 위한 렌즈 쉐이딩 커브로 근사한 다항식 계수일 수 있다. polynomial_coefficient_K_lsc_G may be a polynomial coefficient that approximates the lens shading curve for the green color component in the fixed point 16.16 format.
polynomial_coefficient_K_lsc_B는 고정점 16.16 포맷에서 블루 칼라 컴포넌트를 위한 렌즈 쉐이딩 커브로 근사한 다항식 계수일 수 있다.polynomial_coefficient_K_lsc_B may be a polynomial coefficient that approximates the lens shading curve for the blue color component in the fixed point 16.16 format.
num_deadzones은 본 구문에 의하여 적용되는 각각의 샘플의 부호화된 그림의 데드존의 개수를 지시하는 정수이다.num_deadzones is an integer indicating the number of dead zones in the coded picture of each sample applied by this syntax.
deadzone_left_horizontal_offset, deadzone_top_vertical_offset, deadzone_width, 및 deadzone_height는 데드존 사각 영역의 위치와 크기를 지시하는 정수값이다. 데드존에서는 픽셀들을 사용할 수 없다. deadzone_left_horizontal_offset, deadzone_top_vertical_offset, deadzone_width, and deadzone_height are integer values indicating the position and size of the dead zone rectangular area. You can't use pixels in the dead zone.
deadzone_left_horizontal_offset 및 deadzone_top_vertical_offset은 각각 루마 샘플들에서, 부호화된 그림에서 데드존의 좌측 상단 구석의 수평 좌표 및 수직 좌표를 지시한다.deadzone_left_horizontal_offset and deadzone_top_vertical_offset indicate, in luma samples, the horizontal and vertical coordinates of the upper left corner of the dead zone in the encoded picture, respectively.
deadzone_width 및 deadzone_height는 각각 루마 샘플들에서, 데드존의 너비와 높이를 지시한다. 비디오를 리프젠테이션하기 위한 비트를 절약하기 위하여, 데드존의 모든 픽셀들은 동일한 픽셀값(예컨대, 모두 검은색)으로 설정된다.deadzone_width and deadzone_height indicate the width and height of the dead zone in luma samples, respectively. In order to save the bit for representing the video, all the pixels in the dead zone are set to the same pixel value (eg all black).
스테레오 스코픽 비디오 콘텐츠를 전송하기 위한 방법에 있어서, 시차(parallax)를 가지는 복수의 전방향(omnidirectional) 영상들을 포함하는 스테레오스코픽 영상의 데이터에 기초하여, 상기 복수의 전방향 영상들로부터 투영된 복수의 제1 뷰들을 포함하는 제1 프레임을 생성하는 단계; 영역별 패킹(region-wise packing) 정보에 기초하여, 상기 복수의 제1 뷰들에 포함되는 복수의 제1 영역들을 패킹하여, 복수의 제 2 뷰들을 포함하는 제 2 프레임을 생성하는 단계; 및 상기 생성된 제 2 프레임에 관한 데이터를 전송하는 단계를 포함하고, 상기 복수의 제 2 뷰들은 상기 복수의 제 1 영역들에 대응하는 복수의 제 2 영역들을 포함하고, 상기 영역별 패킹 정보는 상기 복수의 제 2 영역 각각의 모양, 지향 또는 변환에 관한 정보를 포함한다.A method for transmitting stereoscopic video content, the method comprising: a plurality of projections from the plurality of omnidirectional images based on data of a stereoscopic image including a plurality of omnidirectional images having parallax; Generating a first frame comprising first views; Generating a second frame including a plurality of second views by packing a plurality of first regions included in the plurality of first views based on region-wise packing information; And transmitting data relating to the generated second frame, wherein the plurality of second views includes a plurality of second regions corresponding to the plurality of first regions, and the packing information for each region may include: It includes information about the shape, orientation or transformation of each of the plurality of second regions.
상기 영역별 패킹 정보는, 상기 스테레오스코픽 영상이 좌우 스테레오스코픽 360 포맷 또는 상하 스테레오스코픽 360 포맷을 갖는지 여부를 지시하는 정보를 더 포함할 수 있다. The packing information for each region may further include information indicating whether the stereoscopic video has a left and right stereoscopic 360 format or a vertical stereoscopic 360 format.
또한, 상기 영역별 패킹 정보는, 영역별 패킹의 미적용, 분리-독립 영역별 패킹, 분리-미러링 영역별 패킹, 혼합-독립 영역별 패킹 및 혼합-페어별 영역별 패킹 중 하나를 지시하는 스테레오스코픽 패킹 타입을 더 포함할 수 있다.Further, the packing information for each area may be stereoscopic indicating one of non-application of packing by area, packing by separate-independent area, packing by separate-mirroring area, packing by mixed-independent area, and packing by mixed-pair area. It may further include a packing type.
복수의 제 2 영역 각각의 모양에 관한 정보는 상기 복수의 제 2 영역 각각의 모양으로서 복수의 모양들 중 하나를 지시하고, 상기 복수의 모양들은 사다리꼴을 포함할 수 있다. The information on the shape of each of the plurality of second regions indicates one of the plurality of shapes as the shape of each of the plurality of second regions, and the plurality of shapes may include a trapezoid.
또한, 본 개시에 따른 스테레오 스코픽 비디오 콘텐츠를 전송하기 위한 방법은 상기 복수의 어안 렌즈에 의해 획득된 이미지에 기초하여 상기 복수의 전방향 영상 중 하나의 전방향 영상을 생성하는 단계를 더 포함하고, 상기 하나의 전방향 영상에 관한 정보는, 상기 복수의 어안 렌즈 각각에 의해 획득된 이미지를 중심을 기준으로 특정한 각도에 따라 분할하는 분할 영역들의 수를 나타내는 정보; 상기 분할 영역들 각각에서 FOV(field of view)에 대응하는 영역을 나타내는 정보; 및 상기 분할 영역들 각각에서 다른 어안 렌즈에 의해 획득된 이미지와 중첩하는 영역을 나타내는 정보를 포함할 수 있다.In addition, the method for transmitting stereoscopic video content according to the present disclosure further includes generating an omnidirectional image of one of the plurality of omnidirectional images based on images acquired by the plurality of fisheye lenses, The information about the one omnidirectional image may include: information indicating the number of divided regions for dividing an image acquired by each of the plurality of fisheye lenses according to a specific angle with respect to a center; Information indicating an area corresponding to a field of view (FOV) in each of the divided areas; And information indicating an area overlapping an image acquired by another fisheye lens in each of the divided areas.
또한, 상기 복수의 제1뷰들 각각은 구면 투영 영상, 등장방형 투영 영상(equirectangular projection image, ERP 영상), 또는 정다면체 투영 영상이고, 상기 정다면체 투영 영상은 정사면체 투영 영상, 정육면체 투영 영상, 정팔면체 투영 영상, 정십이면체 투영 영상 또는 정이십면체 투영 영상일 수 있다. In addition, each of the plurality of first views may be a spherical projection image, an equirectangular projection image (ERP image), or a tetrahedral projection image, and the regular polyhedral projection image may be a tetrahedral projection image, a cube projection image, an octahedron projection image, It may be a dodecahedron projection image or a dodecahedron projection image.
상기 영역별 패킹 정보는, 상기 복수의 제1 영역들의 위치 정보 및 크기 정보와, 상기 복수의 제2 영역들의 위치 정보 및 크기 정보를 더 포함할 수 있다.The packing information for each area may further include location information and size information of the plurality of first areas and location information and size information of the plurality of second areas.
또한, 상기 스테레오스코픽 패킹 타입이 영역별 패킹의 미적용을 지시하는 경우, 상기 복수의 제1 영역들 각각의 위치 정보 및 크기 정보는 상기 복수의 제2 영역들 중 대응하는 제 2 영역의 위치정보 및 크기 정보와 동일할 수 있다.In addition, when the stereoscopic packing type indicates the non-applying of the packing for each region, the position information and the size information of each of the plurality of first regions may include the position information of the corresponding second region among the plurality of second regions, and It may be the same as the size information.
또한, 상기 스테레오스코픽 패킹 타입이 분리-독립 영역별 패킹을 지시하는 경우, 상기 복수의 제2 뷰들은 분리되어 독립적으로 패킹될 수 있다. In addition, when the stereoscopic packing type indicates packing for each separation-independent area, the plurality of second views may be separated and packed independently.
또한, 상기 스테레오스코픽 패킹 타입이 분리-미러링 영역별 패킹을 지시하는 경우, 상기 복수의 제2 뷰들은 분리되어 동일한 방식으로 패킹될 수 있다.In addition, when the stereoscopic packing type indicates packing per separation-mirror region, the plurality of second views may be separated and packed in the same manner.
또한, 상기 스테레오스코픽 패킹 타입이 혼합-독립 영역별 패킹을 지시하는 경우, 상기 복수의 제2 뷰들은 서로 혼합되고, 상기 복수의 제2 뷰들은 독립적으로 패킹될 수 있다. In addition, when the stereoscopic packing type indicates packing for each mixed-independent area, the plurality of second views may be mixed with each other, and the plurality of second views may be independently packed.
상기 스테레오스코픽 패킹 타입이 혼합-페어별 영역별 패킹을 지시하는 경우, 상기 복수의 제2 뷰들이 서로 혼합되고 페어링되어 패킹될 수 있다. When the stereoscopic packing type indicates packing per region by mixed-pair, the plurality of second views may be mixed with each other, paired, and packed.
또한, 상기 복수의 제1 뷰들은 전면, 후면, 좌측면, 우측면, 상면 및 하면을 포함하는 정육면체 투영 영상들일 수 있고, 상기 복수의 제2 영역들은 상기 전면, 상기 후면, 상기 좌측면, 상기 우측면, 상기 상면, 및 상기 하면에 각각 대응될 수 있고, 상기 복수의 제 2 영역들 중 상기 좌측면, 상기 우측면, 상기 상면, 및 상기 하면에 대응되는 영역들 각각은 사다리꼴의 형상을 갖을 수 있고, 상기 상기 복수의 제 2 영역들 중 상기 전면에 대응되는 영역의 크기는 상기 후면에 대응되는 영역의 크기보다 클 수 있다. The plurality of first views may be a cube projection images including a front surface, a rear surface, a left surface, a right surface, an upper surface, and a lower surface, and the plurality of second regions may be the front surface, the rear surface, the left surface, and the right surface. Each of the areas corresponding to the left side, the right side, the top side, and the bottom side of the plurality of second regions may have a trapezoidal shape. The size of the region corresponding to the front surface of the plurality of second regions may be larger than the size of the region corresponding to the rear surface.
이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술 분야에 통상의 지식을 가진 자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니 되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.In the above, the configuration of the present invention has been described in detail with reference to the accompanying drawings, which are merely examples, and those skilled in the art to which the present invention pertains have various modifications and changes within the scope of the technical idea of the present invention. Of course this is possible. Therefore, the protection scope of the present invention should not be limited to the above-described embodiment but should be defined by the description of the claims below.

Claims (15)

  1. 스테레오 스코픽 비디오 콘텐츠를 전송하기 위한 방법에 있어서,A method for transmitting stereoscopic video content, the method comprising:
    시차(parallax)를 가지는 복수의 전방향(omnidirectional) 영상들을 포함하는 스테레오스코픽 영상의 데이터에 기초하여, 상기 복수의 전방향 영상들로부터 투영된 복수의 제1 뷰들을 포함하는 제1 프레임을 생성하는 단계;Generating a first frame including a plurality of first views projected from the plurality of omnidirectional images based on data of the stereoscopic image including a plurality of omnidirectional images having parallax; step;
    영역별 패킹(region-wise packing) 정보에 기초하여, 상기 복수의 제1 뷰들에 포함되는 복수의 제1 영역들을 패킹하여, 복수의 제 2 뷰들을 포함하는 제 2 프레임을 생성하는 단계; 및Generating a second frame including a plurality of second views by packing a plurality of first regions included in the plurality of first views based on region-wise packing information; And
    상기 생성된 제 2 프레임에 관한 데이터를 전송하고,Transmits data regarding the generated second frame,
    상기 복수의 제 2 뷰들은 상기 복수의 제 1 영역들에 대응하는 복수의 제 2 영역들을 포함하고,The plurality of second views includes a plurality of second regions corresponding to the plurality of first regions,
    상기 영역별 패킹 정보는 상기 복수의 제 2 영역 각각의 모양, 지향 또는 변환에 관한 정보를 포함하는,The packing information for each region includes information about a shape, orientation, or transformation of each of the plurality of second regions.
    스테레오스코픽 비디오 콘텐츠를 전송하기 위한 방법.Method for transmitting stereoscopic video content.
  2. 제1항에 있어서,The method of claim 1,
    상기 영역별 패킹 정보는,The packing information for each region is,
    상기 스테레오스코픽 영상이 좌우 스테레오스코픽 360 포맷 또는 상하 스테레오스코픽 360 포맷을 갖는지 여부를 지시하는 정보를 더 포함하는, Further comprising information indicating whether the stereoscopic video has a left and right stereoscopic 360 format or a vertical stereoscopic 360 format,
    스테레오스코픽 비디오 콘텐츠를 전송하기 위한 방법.Method for transmitting stereoscopic video content.
  3. 제1항에 있어서,The method of claim 1,
    상기 영역별 패킹 정보는,The packing information for each region is,
    영역별 패킹의 미적용, 분리-독립 영역별 패킹, 분리-미러링 영역별 패킹, 혼합-독립 영역별 패킹 및 혼합-페어별 영역별 패킹 중 하나를 지시하는 스테레오스코픽 패킹 타입을 더 포함하는,Further comprising a stereoscopic packing type indicating one of non-applied packing per area, separate-independent area packing, separate-mirroring area packing, mixed-independent area packing and mixed-pair area per packing;
    스테레오스코픽 비디오 콘텐츠를 전송하기 위한 방법.Method for transmitting stereoscopic video content.
  4. 제 1 항에 있어서, The method of claim 1,
    상기 복수의 제 2 영역 각각의 모양에 관한 정보는 상기 복수의 제 2 영역 각각의 모양으로서 복수의 모양들 중 하나를 지시하고, The information about the shape of each of the plurality of second regions indicates one of the plurality of shapes as the shape of each of the plurality of second regions,
    상기 복수의 모양들은 사다리꼴을 포함하는,Wherein the plurality of shapes comprises a trapezoid,
    스테레오스코픽 비디오 콘텐츠를 전송하기 위한 방법.Method for transmitting stereoscopic video content.
  5. 제 1 항에 있어서,The method of claim 1,
    복수의 어안 렌즈에 의해 획득된 이미지에 기초하여 상기 복수의 전방향 영상 중 하나의 전방향 영상을 생성하는 단계를 더 포함하고,Generating an omnidirectional image of the plurality of omnidirectional images based on the images acquired by the plurality of fisheye lenses,
    상기 하나의 전방향 영상에 관한 정보는,The information about the one omnidirectional image is
    상기 복수의 어안 렌즈 각각에 의해 획득된 이미지를 중심을 기준으로 특정한 각도에 따라 분할하는 분할 영역들의 수를 나타내는 정보;Information indicating a number of divided regions for dividing an image acquired by each of the plurality of fisheye lenses according to a specific angle with respect to a center;
    상기 분할 영역들 각각에서 FOV(field of view)에 대응하는 영역을 나타내는 정보; 및Information indicating an area corresponding to a field of view (FOV) in each of the divided areas; And
    상기 분할 영역들 각각에서 다른 어안 렌즈에 의해 획득된 이미지와 중첩하는 영역을 나타내는 정보를 포함하는,In each of the divided regions, information indicating an area overlapping with an image obtained by another fisheye lens,
    스테레오스코픽 비디오 콘텐츠를 전송하기 위한 방법.Method for transmitting stereoscopic video content.
  6. 제1항에 있어서,The method of claim 1,
    상기 복수의 제1뷰들 각각은 구면 투영 영상, 등장방형 투영 영상(equirectangular projection image, ERP 영상), 또는 정다면체 투영 영상이고, Each of the plurality of first views is a spherical projection image, an equirectangular projection image (ERP image), or a tetrahedral projection image,
    상기 정다면체 투영 영상은 정사면체 투영 영상, 정육면체 투영 영상, 정팔면체 투영 영상, 정십이면체 투영 영상 또는 정이십면체 투영 영상인 The tetrahedral projection image may be a tetrahedral projection image, a cube projection image, an octahedron projection image, a dodecahedron projection image, or an icosahedron projection image.
    스테레오스코픽 비디오 콘텐츠를 전송하기 위한 방법.Method for transmitting stereoscopic video content.
  7. 제1항에 있어서,The method of claim 1,
    상기 영역별 패킹 정보는,The packing information for each region is,
    상기 복수의 제1 영역들의 위치 정보 및 크기 정보와,Location information and size information of the plurality of first regions;
    상기 복수의 제2 영역들의 위치 정보 및 크기 정보를 더 포함하는The apparatus further includes location information and size information of the plurality of second regions.
    스테레오스코픽 비디오 콘텐츠를 전송하기 위한 방법.Method for transmitting stereoscopic video content.
  8. 제3항에 있어서,The method of claim 3,
    상기 스테레오스코픽 패킹 타입이 영역별 패킹의 미적용을 지시하는 경우, 상기 복수의 제1 영역들 각각의 위치 정보 및 크기 정보는 상기 복수의 제2 영역들 중 대응하는 제 2 영역의 위치정보 및 크기 정보와 동일하고,When the stereoscopic packing type indicates non-application of region-specific packing, the position information and the size information of each of the plurality of first regions may be the position information and the size information of the corresponding second region among the plurality of second regions. Same as,
    상기 스테레오스코픽 패킹 타입이 분리-독립 영역별 패킹을 지시하는 경우, 상기 복수의 제2 뷰들은 분리되어 독립적으로 패킹되고,When the stereoscopic packing type indicates packing by separate-independent regions, the plurality of second views are separated and packed independently,
    상기 스테레오스코픽 패킹 타입이 분리-미러링 영역별 패킹을 지시하는 경우, 상기 복수의 제2 뷰들은 분리되어 동일한 방식으로 패킹되고,When the stereoscopic packing type indicates packing by separation-mirror regions, the plurality of second views are separated and packed in the same manner,
    상기 스테레오스코픽 패킹 타입이 혼합-독립 영역별 패킹을 지시하는 경우, 상기 복수의 제2 뷰들은 서로 혼합되고, 상기 복수의 제2 뷰들은 독립적으로 패킹되고,When the stereoscopic packing type indicates packing by mixed-independent regions, the plurality of second views are mixed with each other, and the plurality of second views are independently packed;
    상기 스테레오스코픽 패킹 타입이 혼합-페어별 영역별 패킹을 지시하는 경우, 상기 복수의 제2 뷰들이 서로 혼합되고 페어링되어 패킹되는When the stereoscopic packing type indicates packing per region by mixed-pair, the plurality of second views are mixed with each other, paired, and packed.
    스테레오스코픽 비디오 콘텐츠를 전송하기 위한 방법.Method for transmitting stereoscopic video content.
  9. 제1항에 있어서,The method of claim 1,
    상기 복수의 제1 뷰들은 전면, 후면, 좌측면, 우측면, 상면 및 하면을 포함하는 정육면체 투영 영상들이고, The plurality of first views are cube projection images including a front surface, a rear surface, a left surface, a right surface, an upper surface, and a lower surface.
    상기 복수의 제2 영역들은 상기 전면, 상기 후면, 상기 좌측면, 상기 우측면, 상기 상면, 및 상기 하면에 각각 대응되고, The plurality of second regions correspond to the front surface, the rear surface, the left surface, the right surface, the top surface, and the bottom surface, respectively.
    상기 복수의 제 2 영역들 중 상기 좌측면, 상기 우측면, 상기 상면, 및 상기 하면에 대응되는 영역들 각각은 사다리꼴의 형상을 갖고,Each of the regions corresponding to the left side, the right side, the top side, and the bottom side of the plurality of second regions has a trapezoidal shape,
    상기 상기 복수의 제 2 영역들 중 상기 전면에 대응되는 영역의 크기는 상기 후면에 대응되는 영역의 크기보다 큰, The size of the region corresponding to the front surface of the plurality of second regions is larger than the size of the region corresponding to the rear surface.
    스테레오스코픽 비디오 콘텐츠를 전송하기 위한 방법.Method for transmitting stereoscopic video content.
  10. 스테레오 스코픽 비디오 콘텐츠를 전송하기 위한 장치에 있어서,An apparatus for transmitting stereoscopic video content, the apparatus comprising:
    메모리;Memory;
    송수신기; 및Transceiver; And
    상기 메모리와 송수신기에 연결되는 적어도 하나의 프로세서를 포함하고,At least one processor coupled to the memory and a transceiver;
    상기 적어도 하나의 프로세서는, The at least one processor,
    시차(parallax)를 가지는 복수의 전방향(omnidirectional) 영상들을 포함하는 스테레오스코픽 영상의 데이터에 기초하여, 상기 복수의 전방향 영상들로부터 투영된 복수의 제1 뷰들을 포함하는 제1 프레임을 생성하고, 영역별 패킹(region-wise packing) 정보에 기초하여, 상기 복수의 제1 뷰들에 포함되는 복수의 제1 영역들을 패킹하여, 복수의 제 2 뷰들을 포함하는 제 2 프레임을 생성하고, 상기 생성된 제 2 프레임에 관한 데이터를 전송하는 단계를 포함하고,Generate a first frame including a plurality of first views projected from the plurality of omnidirectional images based on data of the stereoscopic image including a plurality of omnidirectional images having parallax; Generating a second frame including a plurality of second views by packing a plurality of first regions included in the plurality of first views based on region-wise packing information. Transmitting data relating to the second frame, wherein
    상기 복수의 제 2 뷰들은 상기 복수의 제 1 영역들에 대응하는 복수의 제 2 영역들을 포함하고,The plurality of second views includes a plurality of second regions corresponding to the plurality of first regions,
    상기 영역별 패킹 정보는 상기 복수의 제 2 영역 각각의 모양, 지향 또는 변환에 관한 정보를 포함하는,The packing information for each region includes information about a shape, orientation, or transformation of each of the plurality of second regions.
    스테레오스코픽 비디오 콘텐츠를 패킹하는 장치.A device for packing stereoscopic video content.
  11. 제10항에 있어서,The method of claim 10,
    상기 영역별 패킹 정보는,The packing information for each region is,
    상기 스테레오스코픽 영상이 좌우 스테레오스코픽 360 포맷 또는 상하 스테레오스코픽 360 포맷을 갖는지 여부를 지시하는 정보를 더 포함하는, Further comprising information indicating whether the stereoscopic video has a left and right stereoscopic 360 format or a vertical stereoscopic 360 format,
    스테레오스코픽 비디오 콘텐츠를 전송하기 위한 장치.Device for transmitting stereoscopic video content.
  12. 제10항에 있어서,The method of claim 10,
    상기 영역별 패킹 정보는,The packing information for each region is,
    영역별 패킹의 미적용, 분리-독립 영역별 패킹, 분리-미러링 영역별 패킹, 혼합-독립 영역별 패킹 및 혼합-페어별 영역별 패킹 중 하나를 지시하는 스테레오스코픽 패킹 타입을 더 포함하는,Further comprising a stereoscopic packing type indicating one of non-applied packing per area, separate-independent area packing, separate-mirroring area packing, mixed-independent area packing and mixed-pair area per packing;
    스테레오스코픽 비디오 콘텐츠를 전송하기 위한 장치.Device for transmitting stereoscopic video content.
  13. 제 10항에 있어서, The method of claim 10,
    상기 복수의 제 2 영역 각각의 모양에 관한 정보는 상기 복수의 제 2 영역 각각의 모양으로서 복수의 모양들 중 하나를 지시하고, The information about the shape of each of the plurality of second regions indicates one of the plurality of shapes as the shape of each of the plurality of second regions,
    상기 복수의 모양들은 사다리꼴을 포함하는,Wherein the plurality of shapes comprises a trapezoid,
    스테레오스코픽 비디오 콘텐츠를 전송하기 위한 장치.Device for transmitting stereoscopic video content.
  14. 제 10항에 있어서,The method of claim 10,
    상기 적어도 하나의 프로세서는, The at least one processor,
    복수의 어안 렌즈에 의해 획득된 이미지에 기초하여 상기 복수의 전방향 영상 중 하나의 전방향 영상을 생성하는 더 구성되고,And generating an omnidirectional image of one of the plurality of omnidirectional images based on the images acquired by the plurality of fisheye lenses,
    상기 하나의 전방향 영상에 관한 정보는,The information about the one omnidirectional image is
    상기 복수의 어안 렌즈 각각에 의해 획득된 이미지를 중심을 기준으로 특정한 각도에 따라 분할하는 분할 영역들의 수를 나타내는 정보;Information indicating a number of divided regions for dividing an image acquired by each of the plurality of fisheye lenses according to a specific angle with respect to a center;
    상기 분할 영역들 각각에서 FOV(field of view)에 대응하는 영역을 나타내는 정보; 및Information indicating an area corresponding to a field of view (FOV) in each of the divided areas; And
    상기 분할 영역들 각각에서 다른 어안 렌즈에 의해 획득된 이미지와 중첩하는 영역을 나타내는 정보를 포함하는,In each of the divided regions, information indicating an area overlapping with an image obtained by another fisheye lens,
    스테레오스코픽 비디오 콘텐츠를 전송하기 위한 장치.Device for transmitting stereoscopic video content.
  15. 제10항에 있어서,The method of claim 10,
    상기 적어도 하나의 프로세서는,The at least one processor,
    제6항 내지 제9항 중 어느 하나의 방법을 수행하는 A method according to any one of claims 6 to 9
    스테레오스코픽 비디오 콘텐츠를 전송하기 위한 장치.Device for transmitting stereoscopic video content.
PCT/KR2017/014742 2017-01-10 2017-12-14 Method and apparatus for transmitting stereoscopic video content WO2018131803A1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP17891098.0A EP3570540A4 (en) 2017-01-10 2017-12-14 Method and apparatus for transmitting stereoscopic video content
US16/477,102 US10855968B2 (en) 2017-01-10 2017-12-14 Method and apparatus for transmitting stereoscopic video content
CN201780082778.3A CN110463196B (en) 2017-01-10 2017-12-14 Method and apparatus for transmitting stereoscopic video content

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762444411P 2017-01-10 2017-01-10
US62/444,411 2017-01-10
KR10-2017-0171492 2017-12-13
KR1020170171492A KR102503342B1 (en) 2017-01-10 2017-12-13 Method and apparatus for transmitting stereoscopic video content

Publications (1)

Publication Number Publication Date
WO2018131803A1 true WO2018131803A1 (en) 2018-07-19

Family

ID=62839605

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/014742 WO2018131803A1 (en) 2017-01-10 2017-12-14 Method and apparatus for transmitting stereoscopic video content

Country Status (1)

Country Link
WO (1) WO2018131803A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113748681A (en) * 2019-01-09 2021-12-03 腾讯美国有限责任公司 Dynamic point cloud partition packing method and device
CN113841416A (en) * 2019-05-31 2021-12-24 倬咏技术拓展有限公司 Interactive immersive cave network

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140078249A1 (en) * 2012-09-20 2014-03-20 Qualcomm Incorporated Indication of frame-packed stereoscopic 3d video data for video coding
US20140132598A1 (en) * 2007-01-04 2014-05-15 Hajime Narukawa Method of mapping image information from one face onto another continous face of different geometry
US20160021354A1 (en) * 2014-07-16 2016-01-21 Arris Enterprises, Inc. Adaptive stereo scaling format switch for 3d video encoding
US20160337670A1 (en) * 2014-02-10 2016-11-17 Lg Electronics Inc. Method and apparatus for transmitting/receiving broadcast signal for 3-dimensional (3d) broadcast service

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140132598A1 (en) * 2007-01-04 2014-05-15 Hajime Narukawa Method of mapping image information from one face onto another continous face of different geometry
US20140078249A1 (en) * 2012-09-20 2014-03-20 Qualcomm Incorporated Indication of frame-packed stereoscopic 3d video data for video coding
US20160337670A1 (en) * 2014-02-10 2016-11-17 Lg Electronics Inc. Method and apparatus for transmitting/receiving broadcast signal for 3-dimensional (3d) broadcast service
US20160021354A1 (en) * 2014-07-16 2016-01-21 Arris Enterprises, Inc. Adaptive stereo scaling format switch for 3d video encoding

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIN, HUNG-CHIH ET AL.: "AHG8: An Efficient Compact Layout for Octahedron Format", JVET-D0142 (VERSION 2), JOINT VIDEO EXPLORATION TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 4TH MEETING, 16 October 2016 (2016-10-16), Chengdu, CN, pages 1 - 5, XP055506578 *
See also references of EP3570540A4 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113748681A (en) * 2019-01-09 2021-12-03 腾讯美国有限责任公司 Dynamic point cloud partition packing method and device
EP3759648A4 (en) * 2019-01-09 2022-01-12 Tencent America LLC Method and apparatus for dynamic point cloud partition packing
US11825128B2 (en) 2019-01-09 2023-11-21 Tencent America LLC Method and apparatus for dynamic point cloud partition packing
CN113748681B (en) * 2019-01-09 2024-04-26 腾讯美国有限责任公司 Dynamic point cloud partition packing method and device and electronic equipment
CN113841416A (en) * 2019-05-31 2021-12-24 倬咏技术拓展有限公司 Interactive immersive cave network

Similar Documents

Publication Publication Date Title
WO2018048288A1 (en) Method and apparatus for transmitting and receiving virtual reality content
WO2018070810A1 (en) Method and apparatus for processing virtual reality image
WO2018182192A1 (en) Method and apparatus for displaying image based on user motion information
WO2018048286A1 (en) Method and apparatus for transmitting and reproducing content in virtual reality system
WO2017142355A1 (en) Method for transmitting and receiving metadata of omnidirectional image
WO2017217763A1 (en) Image processing apparatus and method
WO2018217057A1 (en) 360 video processing method and apparatus therefor
WO2018074850A1 (en) Image processing apparatus and image processing method therefor
KR102503342B1 (en) Method and apparatus for transmitting stereoscopic video content
WO2019098728A1 (en) Method and apparatus for processing three-dimensional images
WO2016048014A1 (en) Image stitching for three-dimensional video
WO2019078696A1 (en) Point cloud compression using hybrid transforms
WO2020145668A1 (en) Method for processing and transmitting three-dimensional content
WO2018044073A1 (en) Image streaming method and electronic device for supporting the same
WO2018043905A1 (en) Method for transmitting 360-degree video, method for receiving 360-degree video, 360-degree video transmitting device, and 360-degree video receiving device
WO2018131803A1 (en) Method and apparatus for transmitting stereoscopic video content
WO2018097682A1 (en) Image processing apparatus and image processing method therefor
WO2019198943A1 (en) Wearable display apparatus and method of displaying three-dimensional images thereon
WO2018124819A1 (en) Method and apparatus for processing video signals
WO2018190446A1 (en) Image processing method and apparatus
WO2018221946A1 (en) Video signal processing method and device
WO2019125017A1 (en) Apparatus for mapping image to polyhedron according to location of region of interest of image, and processing method therefor
WO2018174542A1 (en) Video signal processing method and device
WO2019083119A1 (en) Image decoding method and device using rotation parameters in image coding system for 360-degree video
EP3494706A1 (en) Image streaming method and electronic device for supporting the same

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17891098

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017891098

Country of ref document: EP

Effective date: 20190812