CN110036636A - 用于360度视频的视口感知质量度量 - Google Patents
用于360度视频的视口感知质量度量 Download PDFInfo
- Publication number
- CN110036636A CN110036636A CN201780075009.0A CN201780075009A CN110036636A CN 110036636 A CN110036636 A CN 110036636A CN 201780075009 A CN201780075009 A CN 201780075009A CN 110036636 A CN110036636 A CN 110036636A
- Authority
- CN
- China
- Prior art keywords
- degree
- window
- video
- viewport
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013442 quality metrics Methods 0.000 title claims abstract description 92
- 230000014509 gene expression Effects 0.000 claims abstract description 137
- 241001269238 Data Species 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims description 88
- 230000033001 locomotion Effects 0.000 claims description 73
- 230000015654 memory Effects 0.000 claims description 22
- 238000000926 separation method Methods 0.000 claims description 15
- RKTYLMNFRDHKIL-UHFFFAOYSA-N copper;5,10,15,20-tetraphenylporphyrin-22,24-diide Chemical compound [Cu+2].C1=CC(C(=C2C=CC([N-]2)=C(C=2C=CC=CC=2)C=2C=CC(N=2)=C(C=2C=CC=CC=2)C2=CC=C3[N-]2)C=2C=CC=CC=2)=NC1=C3C1=CC=CC=C1 RKTYLMNFRDHKIL-UHFFFAOYSA-N 0.000 claims description 14
- 238000012935 Averaging Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 26
- 230000008569 process Effects 0.000 description 50
- 239000010410 layer Substances 0.000 description 47
- 210000003128 head Anatomy 0.000 description 36
- 238000003860 storage Methods 0.000 description 32
- 239000013598 vector Substances 0.000 description 29
- 230000009466 transformation Effects 0.000 description 28
- 238000012545 processing Methods 0.000 description 26
- 230000000007 visual effect Effects 0.000 description 24
- 238000013139 quantization Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 18
- 238000013507 mapping Methods 0.000 description 18
- 241000251468 Actinopterygii Species 0.000 description 14
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- VEMKTZHHVJILDY-UHFFFAOYSA-N resmethrin Chemical compound CC1(C)C(C=C(C)C)C1C(=O)OCC1=COC(CC=2C=CC=CC=2)=C1 VEMKTZHHVJILDY-UHFFFAOYSA-N 0.000 description 11
- 239000000523 sample Substances 0.000 description 11
- 238000013500 data storage Methods 0.000 description 10
- 230000000670 limiting effect Effects 0.000 description 10
- 238000009826 distribution Methods 0.000 description 9
- 210000000887 face Anatomy 0.000 description 9
- 238000005070 sampling Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 238000009877 rendering Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 108091000069 Cystinyl Aminopeptidase Proteins 0.000 description 5
- 102100020872 Leucyl-cystinyl aminopeptidase Human genes 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000005538 encapsulation Methods 0.000 description 5
- 241000208340 Araliaceae Species 0.000 description 4
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 4
- 235000003140 Panax quinquefolius Nutrition 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 230000005611 electricity Effects 0.000 description 4
- 235000008434 ginseng Nutrition 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005266 casting Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 241000023320 Luma <angiosperm> Species 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007654 immersion Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000004080 punching Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- LFZDEAVRTJKYAF-UHFFFAOYSA-L barium(2+) 2-[(2-hydroxynaphthalen-1-yl)diazenyl]naphthalene-1-sulfonate Chemical compound [Ba+2].C1=CC=CC2=C(S([O-])(=O)=O)C(N=NC3=C4C=CC=CC4=CC=C3O)=CC=C21.C1=CC=CC2=C(S([O-])(=O)=O)C(N=NC3=C4C=CC=CC4=CC=C3O)=CC=C21 LFZDEAVRTJKYAF-UHFFFAOYSA-L 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003694 hair properties Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000012432 intermediate storage Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/017—Head mounted
- G02B27/0172—Head mounted characterised by optical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04815—Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/06—Topological mapping of higher dimensional structures onto lower dimensional surfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
- H04N17/004—Diagnosis, testing or measuring for television systems or their details for digital television systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/0101—Head-up displays characterised by optical features
- G02B2027/0123—Head-up displays characterised by optical features comprising devices increasing the field of view
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/0101—Head-up displays characterised by optical features
- G02B2027/0138—Head-up displays characterised by optical features comprising image capture systems, e.g. camera
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/0101—Head-up displays characterised by optical features
- G02B2027/014—Head-up displays characterised by optical features comprising information/image processing systems
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/0179—Display position adjusting means not related to the information to be displayed
- G02B2027/0187—Display position adjusting means not related to the information to be displayed slaved to motion of at least a part of the body of the user, e.g. head, eye
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Optics & Photonics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
提供了用于处理360度视频数据的技术和系统。举例来说,可获得360度视频数据,所述360度视频数据包含包括映射到几何形状的面的球面视频数据的表示。所述表示包含对应于360度场景中的定向的视口。可确定对应于所述表示的所述视口的所述定向处所述360度场景的球面表示上的窗口。基于对应于所述表示的所述几何形状的前面确定所述窗口。可随后确定所述360度场景的所述球面表示上的所述窗口的视口感知质量度量。
Description
技术领域
本申请涉及360度视频。更具体地,本申请涉及用于提供用于360度视频的视口感知质量度量的系统和方法。
背景技术
许多装置和系统允许处理和输出视频数据以用于消费。数字视频数据包含大量数据以满足消费者和视频供应商的需求。举例来说,视频数据的消费者希望视频具有最佳的质量以及高保真度、分辨率、帧率等等。一种类型的视频是360度视频。360度视频可为检视者提供沉浸式体验。举例来说,360度视频可为检视者提供虚拟现实体验,将检视者置于虚拟地不同的时间和/或空间。作为另一实例,360度视频可为检视者提供由远程装置(例如,无人机或其它装置)捕获的视频内容的第一人视图(first-person view)。
发明内容
在一些实例中,本文描述用于确定用于360度视频的视口感知质量度量的技术和系统。视口指代可经渲染以供显示的360度场景内的特定视图。举例来说,可通过在360度场景内从不同视点或定向捕获视频帧来产生360度场景的多个视频表示。每一表示可与360度场景的不同视口相关联。此表示在本文中被称作视口表示。可限定提供360度场景的球面表示的球面几何形状。检视者可使用例如头戴式显示器、移动装置和/或其它合适的装置等360度视频显示装置检视球面几何形状。360度视频本质上为球面的,且可在提供给360度视频显示装置之前投影到几何形状的一或多个平面上。
基于视口的视频方案可试图向360度视频显示装置递送具有360度视频数据的视口表示(和相关联视口),其以完全质量(例如,以完全分辨率)表示最接近于检视者的视场(FOV)的球面几何形状的一部分;所述360度视频数据的剩余部分以较低质量提供。表示的360度视频数据的不同质量可通过将所述表示的360度视频数据(其包含球面视频数据)投影(或映射)到几何形状的一或多个平面来提供。几何形状可包含例如截断正方锥(TSP)、等矩形形状、立方体、圆柱、十二面体和/或其它合适的几何形状。球面几何形状可由多个视口覆盖,从而允许基于检视者的头部定向和/或位置在表示之间无缝切换。在某些情况下,多个视口可在球面几何形状上重叠。视口表示之间的切换可随着检视者的头部定向越过一或多个视口切换边界而发生。
可基于球面几何形状上限定的一或多个窗口确定视口感知质量度量。可基于特定视口表示在球面几何形状上限定窗口。窗口可表示球面几何形状上的可检视区(可观察窗口)。举例来说,可至少部分地基于视口表示投影到的几何形状的前面限定窗口。使用TSP作为一实例,TSP的前面的视场(对应于视口表示的360度视频数据的最高分辨率部分)可用于限定用于所述视口表示的窗口。在某些情况下,一或多个其它因素也可用于限定窗口,例如球面几何形状上的视口之间的分隔量、头部转速、切换延迟和/或任何其它合适的因素。可随后确定窗口内的视频数据的视口感知质量度量。在某些情况下,可在球面上限定多个窗口,且可针对所有窗口确定视口感知质量度量。多个窗口可对应于可用于360度场景的视口表示中的一些或全部。在一些实例中,球面几何形状上的窗口中心与视口表示的前视口中心一致。在此些情况下,可确定视口表示的组合视口感知质量度量。
视口感知质量度量(或组合视口感知质量度量)指示当映射到几何形状时360度视频数据的质量。举例来说,视口感知质量度量可表示原始360度视频和经译码360度视频之间的比较,因此指示映射到特定几何形状的360度视频数据的译码效率。使用TSP作为一实例,当映射到TSP几何形状时不同视口表示的译码效率可基于所确定的视口感知质量度量(或组合视口感知质量度量)来提供。
根据至少一个实例,提供一种处理360度视频数据的方法。所述方法包括获得360度视频数据。360度视频数据包含包括映射到几何形状的面的球面视频数据的表示。所述表示包含对应于360度场景中的定向的视口。所述方法进一步包括确定对应于表示的视口的定向处360度场景的球面表示上的窗口。基于对应于所述表示的几何形状的前面确定窗口。所述方法进一步包括确定360度场景的球面表示上的窗口的视口感知质量度量。
在另一实例中,提供一种用于处理360度视频数据的设备,其包含经配置以存储360度视频数据的存储器和处理器。所述处理器经配置以并且可以获得360度视频数据。360度视频数据包含包括映射到几何形状的面的球面视频数据的表示。所述表示包含对应于360度场景中的定向的视口。处理器进一步经配置以并且可以确定对应于表示的视口的定向处360度场景的球面表示上的窗口。基于对应于所述表示的几何形状的前面确定窗口。处理器进一步经配置以并且可以确定360度场景的球面表示上的窗口的视口感知质量度量。
在另一实例中,提供一种非暂时性计算机可读介质,其上存储有指令,所述指令在由一或多个处理器执行时致使所述一或多个处理器:获得360度视频数据,所述360度视频数据包含包括映射到几何形状的面的球面视频数据的表示,其中所述表示包含对应于360度场景中的定向的视口;确定对应于表示的视口的定向处360度场景的球面表示上的窗口,所述窗口是基于对应于所述表示的几何形状的前面而确定;以及确定360度场景的球面表示上的窗口的视口感知质量度量。
在另一实例中,提供一种用于处理360度视频数据的设备。所述设备包含用于获得360度视频数据的装置。360度视频数据包含包括映射到几何形状的面的球面视频数据的表示。所述表示包含对应于360度场景中的定向的视口。所述设备进一步包含用于确定对应于表示的视口的定向处360度场景的球面表示上的窗口的装置。基于对应于所述表示的几何形状的前面确定窗口。所述设备进一步包含用于确定360度场景的球面表示上的窗口的视口感知质量度量的装置。
在一些方面中,360度视频数据包含包括映射到几何形状的面的球面视频数据的多个表示。所述多个表示的每一表示包含对应于360度场景中的不同定向的不同视口。在此些方面中,上文描述的方法、设备和计算机可读介质可进一步包括:确定360度场景的球面表示上的多个窗口,所述多个窗口中的每一个是基于对应于每一表示的几何形状的每一前面而确定;确定360度场景的球面表示上的所述多个窗口的视口感知质量度量;以及确定所述多个表示的组合视口感知质量度量。
在一些方面中,确定所述多个表示的组合视口感知质量度量包含对所述多个窗口的所确定的视口感知质量度量求平均。
在一些方面中,所述多个窗口包含分布在360度场景的球面表示上的所述多个表示的前面中心。在一些方面中,360度场景的球面表示上确定的所述多个窗口重叠。
在一些方面中,确定360度场景的球面表示上的窗口的视口感知质量度量包含计算窗口中视频数据的球面信噪比(S-PSNR)。在此些方面中,S-PSNR的计算限于窗口中的视频数据来确定窗口的视口感知质量度量。
在一些方面中,几何形状包含截断正方锥(TSP),且表示的球面视频数据映射到TSP的六个面。在一些方面中,几何形状包含立方体几何形状。在一些方面中,几何形状包含基于经下取样立方体地图投影(DCP)的几何形状。
在一些方面中,通过计算窗口的概率加权可观察窗口大小来确定窗口。窗口的概率加权可观察窗口大小是基于对应于表示的几何形状的前面,以及以下中的至少一或多个:所述窗口和360度视频数据的至少一个其它表示的至少一个其它窗口之间的分隔量、360度视频数据的检视者的所估计头部转速,或与360度视频数据的表示之间的切换相关联的切换延迟。
在某些情况下,所述设备包括用于捕获所述一或多个图像的相机。在某些情况下,所述设备包括具有用于捕获所述一或多个图像的相机的移动装置。在某些情况下,所述设备包括用于显示所述一或多个图像的显示器。
本发明内容并不意图识别所要求的标的物的关键特征或基本特征,也并非意图单独用于确定所要求的标的物的范围。标的物应参考本专利的整个说明书的适当部分、任何或所有图式以及每一权利要求来理解。
在参考以下说明书、权利要求书以及附图之后,前述内容连同其它特征和实施例将变得更显而易见。
附图说明
下文参考以下图式详细描述本发明的说明性实施例:
图1是示出根据一些实例的编码装置和解码装置的实例的框图;
图2A和图2B是示出根据一些实例由使用鱼眼镜头来捕获宽视场的全向相机捕获的视频帧的实例的图式;
图3是示出根据一些实例的等矩形视频帧的实例的图式;
图4A和图4B是示出根据一些实例在360度视频呈现中使用的360度视频帧的实例的图式;
图5A示出根据一些实例由球面几何形状表示的虚拟环境的实例,其中球面的像素已经映射到截断正方锥形状的面上;
图5B示出根据一些实例已映射到截断正方锥形状的视频数据帧的帧封装结构的实例;
图5C示出根据一些实例已根据图5B中所示出的实例帧封装结构封装的帧的实例;
图5D示出根据一些实例对应于投影到截断正方锥几何形状上的360度场景的视口表示的若干TSP映射的实例;
图6是示出根据一些实例用于媒体串流的实例系统的图式;
图7是示出根据一些实例表示360度视频场景的球面几何形状上限定的窗口的实例的图式;
图8A是示出根据一些实例用于评估视口感知质量度量的具有窗口中心的实例球面几何形状的俯视图的图式;
图8B是示出根据一些实例用于评估视口感知质量度量的具有窗口中心的实例球面几何形状的侧视图的图式;
图9是示出根据一些实例具有针对两个视口表示限定的两个窗口的实例球面几何形状的俯视图的图式;
图10是示出根据一些实例的经下取样立方体地图投影(DCP)的实例的图式;
图11是示出根据一些实例的ERP和TSP及DCP(DCP)投影之间的BD速率比较的图表;
图12是示出根据一些实例用于处理360度视频数据的过程的实例的流程图;
图13是示出根据一些实例的实例视频编码装置的框图;以及
图14是示出根据一些实例的实例视频解码装置的框图。
具体实施方式
下文提供本公开的某些方面和实施例。如对于所属领域的技术人员来说将显而易见的是,这些方面和实施例中的一些可以独立地应用并且它们中的一些可以组合应用。在以下描述中,出于阐释的目的,阐述特定细节以便提供对本发明的实施例的透彻理解。然而,将显而易见的是,可在无这些特定细节的情况下实践各种实施例。图式和描述并不希望是限制性的。
以下描述仅提供示范性实施例,且并不意图限制本公开的范围、适用性或配置。实际上,示范性实施例的以下描述将为所属领域的技术人员提供用于实施示范性实施例的启发性描述。应理解,在不脱离如在所附权利要求书中所阐述的本发明的精神和范围的情况下,可对元件的功能和布置进行各种改变。
在以下描述中给出特定细节以提供对实施例的透彻理解。然而,所属领域的一般技术人员应理解,可以在没有这些具体细节的情况下实践所述实施例。举例来说,电路、系统、网络、过程和其它组件可以框图形式展示为组件以免以不必要的细节混淆实施例。在其它情况下,可以在没有不必要的细节的情况下示出众所周知的电路、过程、算法、结构以及技术以便避免混淆实施例。
此外,应注意,个别实施例可描述为被描绘为流程图、流图、数据流图、结构图或框图的过程。尽管流程图可以将操作描述为循序过程,但是许多操作可以并行或同时执行。另外,操作的次序可重新安排。过程在其操作完成时终止,但可具有不包含在图中的额外步骤。过程可对应于方法、函数、进程、子例程、子程序等。当过程对应于函数时,过程的终止可对应于函数返回到调用函数或主函数。
术语“计算机可读介质”包含(但不限于)便携式或非便携式存储装置、光学存储装置,和能够存储、含有或携载指令和/或数据的各种其它介质。计算机可读介质可能包含非暂时性介质,在非暂时性介质中可以存储数据,并且非暂时性介质并不包含以无线方式或在有线连接上传播的载波和/或暂时性电子信号。非暂时性介质的实例可包含(但不限于)磁盘或磁带、光学存储介质(例如压缩光盘(CD)或数字通用光盘(DVD))、快闪存储器、存储器或存储器装置。计算机可读介质可具有存储在其上的可表示进程、函数、子程序、程序、例程、子例程、模块、软件包、类别,或者指令、数据结构或程序语句的任何组合的代码和/或机器可执行指令。一代码段可通过传递及/或接收信息、数据、自变量、参数或存储器内容而耦合到另一代码段或硬件电路。信息、自变量、参数、数据等可经由包含存储器共享、消息传递、令牌传递、网络发射或类似者的任何合适的手段传递、转发或发射。
此外,实施例可以由硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合来实施。当以软件、固件、中间件或微码实施时,用于执行必要任务的程序代码或代码段(例如,计算机程序产品)可存储在计算机可读或机器可读介质中。处理器可以执行必要任务。
视频内容可被捕获且作为360度视频内容而译码。如下文更详细地描述,本文中所描述的一或多个系统和方法是针对确定映射(投影)到几何形状的一或多个平面的360度视频数据的视口感知质量度量。可基于提供360度场景的球面表示的球面几何形状(在本文中也被称为球面)上限定的一或多个窗口确定视口感知质量度量。举例来说,可通过从360度场景内的不同视点或定向捕获视频帧来针对360度场景产生多个视频表示(被称作视口表示)。每一表示可与360度场景的不同视口相关联。可基于特定视口表示在表示360度场景的球面上确定窗口。可至少部分地基于视口表示投影到的几何形状的前面限定窗口。在某些情况下,一或多个其它因素也可用于限定窗口,包含球面上的视口之间的分隔量、头部转速、切换延迟和/或任何其它合适的因素。所述一或多个系统和方法可随后确定窗口内的视频数据的视口感知质量度量。在某些情况下,可在球面上限定多个窗口,且可针对所有窗口确定视口感知质量度量。多个窗口可对应于针对360度场景捕获的视口表示中的一些或全部。在此些情况下,可确定视口表示的组合视口感知质量度量。在一些实例中,可限定窗口使得其在球面上重叠。
360度视频是360度场景或环境的所捕获的视频,且可经渲染以实现360度场景或环境的沉浸式显示。举例来说,360度视频可表示可以看起来真实或实体的方式交互的三维场景或环境。在某些情况下,360度视频可以极高质量捕获和渲染,从而可能提供真正沉浸式的360度视频或虚拟现实体验。360度视频的说明性实例可包含虚拟现实视频、扩增现实数据,或任何其它类型的360度类型的视频内容,不论是捕获的、计算机产生的还是其它方式获得的。360度视频应用的说明性实例包含实况体育活动、扩增现实、游戏、训练、教育、体育视频、线上购物及其它。在某些情况下,体验360度视频环境的用户使用例如头戴式显示器(HMD)、移动装置或其它合适的装置等电子设备。在某些情况下,特定工具或服装(例如,装配有传感器的手套)可任选地用于与虚拟环境交互。随着用户在现实世界中改变头部定向和/或移动,360度视频环境中渲染的图像也改变,从而给予用户用户正在360度视频环境内移动的感知。在某些情况下,360度视频环境可包含与用户的移动相关的声音,从而给予用户声音源自特定方向或来源的印象。
在一些应用中,来自现实世界的视频可以在360度视频或虚拟现实环境的呈现中使用,这与可例如在游戏和虚拟世界中发现的计算机产生的图形形成对比。在此类现实世界应用中,用户可以与用户可体验用户的当前位置相同的方式体验另一位置。在一个说明性实例中,用户可在使用位于旧金山的360度视频系统的同时体验柏林徒步旅行。在一些应用中,360度视频可提供虚拟地存在于非实体世界中从而允许用户与所述世界交互的能力,所述非实体世界是通过依据沉浸的用户的移动相关的天然和/或合成图像(以及在某些状况下,声音)的渲染创建的。
360度视频系统可包含视频捕获装置和视频显示装置,且可能还包含其它中间装置,例如服务器、数据存储装置和数据发射设备。视频捕获装置可包含相机组,其可包含一组多个相机,每一相机定向于不同方向中且捕获不同视图。在一个说明性实例中,六个相机可用于捕获相机组的位置上居中的完全360度视图。一些视频捕获装置可使用较少相机。举例来说,一些视频捕获装置可主要捕获边到边(side-to-side)视图或使用具有宽视场的镜头。在一个说明性实例中,装备有背对背定位的两个鱼眼镜头的一或多个相机可用于捕获一起提供360度视场的两个图像。视频通常包含帧或图片,其中帧或图片可包含场景的以电子方式译码的静态图像。相机每秒捕获一定数量的帧,这通常被称为相机的帧速率。
在某些情况下,为了提供无缝360度视图,可对由相机组中的相机中的每一个捕获的视频帧(或图像)执行图像拼接。在360度视频产生的状况下的图像拼接涉及在视频帧重叠或以其它方式连接的区域中组合或合并来自邻近相机(或镜头)的视频帧。结果将是近似球面帧,且合并的数据可以平面方式表示。举例来说,球面帧可映射到几何形状的平面。几何形状可包含例如截断正方锥(TSP)、等矩形形状、立方体、圆柱、十二面体和/或其它合适的几何形状。举例来说,合并后的视频帧中的像素可投影或映射到TSP形状、立方体形状或某一其它三维平面形状(例如,锥形、八面体、十面体等)的平面上。视频捕获和视频显示装置可基于光栅原理操作-意味着视频帧被视为像素的栅格-在此情况下,正方形平面、矩形平面或其它合适形状的平面可用于表示球面环境。
映射到几何平面表示的360度视频帧可以经编码和/或压缩以用于存储和/或发射。编码和/或压缩可使用视频编解码器(例如,遵守高效视频译码(HEVC)标准(也被称为H.265)、先进视频译码标准(被称为H.264)或其它合适的编解码器的代码)来实现,且产生经压缩视频位流(或经编码视频位流)或位流的群组。360度视频内容的视频图片可使用时间帧间预测(TIP)编码为单层位流,且整个经译码位流可存储在服务器处。在某些情况下,360度视频内容的图片可使用TIP和层间预测(ILP)编码为多层位流。下文进一步详细描述使用视频编解码器对视频数据进行编码。
在一些实施方案中,经编码视频位流可以媒体格式或文件格式存储和/或囊封。所存储位流可例如经由网络发射到接收器装置,所述接收器装置可解码和渲染视频以供显示。此接收器装置在本文中可以被称为视频显示装置。举例来说,360度视频系统可依据经编码视频数据(例如,使用国际标准组织(ISO)基础媒体文件格式和/或衍生的文件格式)产生经囊封文件。举例来说,视频编解码器可对视频数据进行编码,且囊封引擎可通过将视频数据囊封在一或多个ISO格式媒体文件中来产生媒体文件。作为替代或另外,所存储位流可直接从存储介质提供到接收器装置。
接收器装置还可实施编解码器以对经编码视频位流进行解码和/或解压缩。在经编码视频位流以媒体格式或文件格式存储和/或囊封的情况下,所述接收器装置可支持用于将视频位流封装到文件(或多个文件)中的媒体或文件格式,且可提取视频(且可能还提取音频)数据以产生经编码视频数据。举例来说,接收器装置可使用囊封的视频数据解析媒体文件以产生经编码视频数据,且接收器装置中的编解码器可对经编码视频数据进行解码。
接收器装置可随后将经解码视频信号发送到渲染装置(例如,视频显示装置、玩家装置或其它合适的渲染装置)。渲染装置包含(例如)头戴式显示器、虚拟现实电视机、支持360度视频应用的移动装置,和/或其它180度或360度显示装置。通常,头戴式显示器能够跟踪佩戴者的头部的移动和/或佩戴者的眼部的移动。头戴式显示器可使用跟踪信息来渲染对应于佩戴者正在观看的方向的360度视频的部分,使得佩戴者以与她体验现实世界的相同方式体验虚拟环境。(例如,接收器装置的)渲染装置可以与捕获视频相同的帧速率或以不同帧速率渲染视频。如果需要,包含360度视频的位流可发射到接收器侧,由解码器完全解码,且对应于正由佩戴者检视(被称作检视者的视场(FOV))的场景的一部分的经解码图像的区可由渲染装置渲染以供由佩戴者检视。可由头戴式显示器或其它360度视频显示装置基于佩戴者的头部和/或眼睛的移动来确定检视者的FOV。
如上所述,360度视频帧(例如,映射或投影到几何形状)可经编码和/或压缩以供存储和/或发射,且接收器装置可解码和/或解压缩经编码的360度视频帧。图1是示出包含编码装置104和解码装置112的视频译码系统100的实例的框图。编码装置104可以是源装置的部分,且解码装置112可以是接收装置的部分。源装置和/或接收装置可包含电子装置,例如移动或静止电话手持机(例如,智能电话、蜂窝式电话等)、台式计算机、膝上型计算机或笔记本计算机、平板计算机、机顶盒、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频串流装置、因特网协议(IP)相机,或任何其它合适的电子装置。在一些实例中,源装置和接收装置可以包含一或多个无线收发器以用于无线通信。本文中所描述的译码技术适用于各种多媒体应用中的视频译码,包含串流视频发射(例如,在因特网上)、电视广播或发射、用于存储在数据存储介质上的数字视频的编码、存储在数据存储介质上的数字视频的解码或其它应用。在一些实例中,系统100可以支持单向或双向视频发射,以支持例如视频会议、视频串流发射、视频重放、视频广播游戏和/或视频电话的应用。
编码装置104(或编码器)可用以使用视频译码标准或协议对视频数据进行编码以产生经编码视频位流。视频译码标准的实例包含ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual、ITU-TH.264(也被称作ISO/IEC MPEG-4AVC),包含其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展,以及高效视频译码(HEVC)或ITU-T H.265。HEVC的各种扩展处理所存在的多层视频译码,包含范围和屏幕内容译码扩展、3D视频译码(3D-HEVC)和多视图扩展(MV-HEVC)以及可缩放扩展(SHVC)。HEVC及其扩展已经通过视频译码联合合作小组(JCT-VC)以及ITU-T视频译码专家组(VCEG)和ISO/IEC运动图片专家组(MPEG)的3D视频译码扩展开发的联合合作小组(JCT-3V)开发。MPEG和ITU-T VCEG也已形成联合探索视频组(JVET)以探索用于下一代的视频译码标准的新译码工具。参考软件被称作JEM(联合探索模型)。
本文中所描述的许多实施例使用JEM模型、HEVC标准和/或其扩展提供实例。然而,本文所描述的技术和系统也可以适用于其它译码标准,例如AVC、MPEG、其扩展,或已经可用或尚未可用或待开发的其它合适的译码标准。相应地,虽然本文中描述的技术和系统可以参考特定视频译码标准描述,但是所属领域的一般技术人员将理解,描述不应解释为仅适用于特定标准。
参看图1,视频源102可将视频数据提供到编码装置104。视频源102可为源装置的一部分,或可为除源装置以外的装置的一部分。视频源102可包含视频捕获装置(例如,摄像机、相机电话、视频电话或类似者)、含有所存储的视频的视频存档、提供视频数据的视频服务器或内容提供商、从视频服务器或内容提供商接收视频的视频馈送接口、用于产生计算机图形视频数据的计算机图形系统、此类来源的组合,或任何其它合适的视频源。
来自视频源102的视频数据可以包含一或多个输入图片或帧。视频的图片或帧是场景的静态图像。视频数据的图片或帧可包含映射或投影到几何形状(例如,TSP、立方体或其它合适的几何形状)的平面上的360度视频数据。编码装置104的编码器引擎106(或编码器)对视频数据进行编码以产生经编码视频位流。在一些实例中,经编码视频位流(或“视频位流”或“位流”)是一系列一或多个经译码视频序列。经译码视频序列(CVS)包含一系列存取单元(AU),从具有基础层中的随机存取点图片且具有特定性质的AU开始,直到具有基础层中的随机存取点图片且具有特定性质的下一AU且不包含所述下一AU。举例来说,开始CVS的随机存取点图片的特定性质可包含RASL旗标(例如,NoRaslOutputFlag)等于1。否则,随机存取点图片(具有RASL旗标等于0)并不开始CVS。存取单元(AU)包含一或多个经译码图片以及对应于共享同一输出时间的经译码图片的控制信息。图片的经译码切片在位流层级中囊封于数据单元中,称为网络抽象层(NAL)单元。举例来说,HEVC视频位流可以包含一或多个包含NAL单元的CVS。NAL单元中的每一个具有NAL单元标头。在一个实例中,标头对于H.264/AVC是一个字节(多层扩展除外)且对于HEVC是两个字节。NAL单元标头中的语法元素采用指定位并且因此对所有种类的系统和输送层可见,例如,输送流、实时输送(RTP)协议、文件格式等等。
在HEVC标准中存在两类NAL单元,包含视频译码层(VCL)NAL单元和非VCL NAL单元。VCL NAL单元包含经译码图片数据的一个切片或切片段(下文描述),且非VCL NAL单元包含与一或多个经译码图片有关的控制信息。在一些情况下,NAL单元可被称作包。HEVC AU包含含有经译码图片数据的VCL NAL单元以及对应于经译码图片数据的非VCL NAL单元(如果存在)。
NAL单元可含有形成视频数据的经译码表示(例如视频中的图片的经译码表示)的位序列(例如,经编码视频位流、位流的CVS等)。编码器引擎106通过将每一图片分割成多个切片来产生图片的经译码表示。切片不依赖于其它切片,以使得所述切片中的信息以译码而无需依赖于来自相同图片内的其它切片的数据。切片包含一或多个切片段,包含独立的切片段,并且如果存在的话,包含取决于先前切片段的一或多个相依切片段。切片随后被分割成亮度样本和色度样本的译码树块(CTB)。亮度样本的CTB和色度样本的一或多个CTB连同样本的语法一起被称作译码树单元(CTU)。CTU是用于HEVC编码的基本处理单元。CTU可以被分裂成不同大小的多个译码单元(CU)。CU包含被称作译码块(CB)的亮度和色度样本阵列。
亮度和色度CB可进一步分裂成预测块(PB)。PB是对于帧间预测或块内复制预测(当可用或经启用以供使用时)使用相同运动参数的亮度分量或色度分量的样本块。亮度PB和一或多个色度PB连同相关联的语法形成预测单元(PU)。对于帧间预测,在位流中针对每一PU用信号表示一组运动参数(例如,一或多个运动向量、参考索引等),且将所述组运动参数用于亮度PB和所述一或多个色度PB的帧间预测。运动参数也可以被称作运动信息。CB也可以被分割成一或多个变换块(TB)。TB表示色彩分量的样本的正方形块,对所述色彩分量应用相同二维变换以对预测残余信号进行译码。变换单元(TU)表示亮度和色度样本的TB以及对应的语法元素。
CU的大小对应于译码模式的大小,并且形状可为正方形。举例来说,CU的大小可以是8×8个样本、16×16个样本、32x 32个样本、64x 64个样本,或高达对应的CTU的大小的任何其它适当大小。短语“NxN”在本文中用以在垂直和水平尺寸方面指代视频块的像素尺寸(例如,8像素x 8像素)。块中的像素可按行和列布置。在一些实施例中,块可在水平方向上不具有与在垂直方向上相同数目的像素。举例来说,与CU相关联的语法数据可描述将CU分割成一或多个PU。分割模式可在CU经帧内预测模式编码或是经帧间预测模式编码之间有所不同。PU可被分割成非正方形形状。举例来说,与CU相关联的语法数据还可描述例如CU根据CTU分割成一或多个TU。TU可为正方形或非正方形形状。
根据HEVC标准,使用变换单元(TU)执行变换。TU可以针对不同CU发生改变。TU可以基于给定CU内的PU的大小而设定大小。TU可与PU大小相同或小于PU。在一些实例中,对应于CU的残余样本可使用被称为“残余四叉树”(RQT)的四叉树结构细分成较小单元。RQT的叶节点可以对应于TU。可以对与TU相关联的像素差值进行变换以产生变换系数。变换系数可随后通过编码器引擎106进行量化。
一旦视频数据的图片被分割成CU,则编码器引擎106使用预测模式预测每个PU。随后从原始视频数据减去预测单元或预测块以得到残余(下文描述)。对于每个CU,可以在位流内部使用语法数据用信号表示预测模式。预测模式可以包含帧内预测(或图片内预测)或帧间预测(或图片间预测)。帧内预测利用图片内的空间相邻样本之间的相关性。举例来说,使用帧内预测,每个PU是依据相同图片中的相邻图像数据预测的,方式是使用例如DC预测以寻找PU的平均值、使用平面预测以使平面表面配合到PU、使用方向预测以从相邻数据中进行推断,或者使用任何其它合适类型的预测。帧间预测使用图片之间的时间相关以便导出用于图像样本的块的运动补偿预测。举例来说,使用帧间预测,每个PU是使用来自一或多个参考图片中的图像数据的运动补偿预测进行预测的(按输出次序在当前图片之前或之后)。举例来说,可以在CU层级作出是使用图片间还是图片内预测对图片区域进行译码的决策。
在一些实例中,图片的所述一或多个切片被指派切片类型。切片类型包含I切片、P切片和B切片。I切片(帧内,可独立解码)是图片的仅通过帧内预测经译码且因此可独立地解码的切片,因为I切片仅需要帧内的数据来预测切片的任何预测单元或预测块。P切片(单向预测帧)是图片的可以通过帧内预测和单向帧间预测译码的切片。在P切片内的每一预测单元或预测块是通过帧内预测或帧间预测来译码的。当帧间预测适用时,预测单元或预测块仅通过一个参考图片来预测,并且因此参考样本仅来自一个帧的一个参考区。B切片(双向预测帧)是可利用帧内预测以及利用帧间预测(例如,双向预测或单向预测任一个)译码的图片的切片。B切片的预测单元或预测块可以是依据两个参考图片双向预测的,其中每一图片贡献一个参考区,且两个参考区的示例集合被经加权(例如,以相等权重或以不同权重)以产生经双向预测块的预测信号。如上文所解释,一个图片的切片独立地经译码。在一些情况下,图片可经译码为仅一个切片。
PU可包含关于预测过程的数据(例如,运动参数或其它合适的数据)。举例来说,当PU使用帧内预测编码时,PU可包含描述PU的帧内预测模式的数据。作为另一实例,当PU使用帧间预测编码时,PU可以包含界定PU的运动向量的数据。限定PU的运动向量的数据可以描述例如运动向量的水平分量(Δx)、运动向量的垂直分量(Δy)、运动向量的分辨率(例如,整数精度、四分之一像素精度或八分之一像素精度)、运动向量指向的参考图片、参考索引、运动向量的参考图片列表(例如,列表0、列表1或列表C),或其任何组合。
编码装置104可随后执行变换和量化。举例来说,在预测之后,编码器引擎106可以计算对应于PU的残余值。残余值可包括正译码像素的当前块(PU)和用于预测当前块的预测块(例如,当前块的经预测型式)之间的像素差值。举例来说,在产生预测块(例如,发出帧间预测或帧内预测)之后,编码器引擎106可通过从当前块减去由预测单元产生的预测块而产生残余块。残余块包含对当前块的像素值与预测块的像素值之间的差进行量化的像素差值的集合。在一些实例中,残余块可以二维块格式(例如,像素值的二维矩阵或阵列)表示。在此类实例中,残余块是像素值的二维表示。
在执行预测之后可能剩余的任何残余数据是使用块变换进行变换,所述块变换可基于离散余弦变换、离散正弦变换、整数变换、小波变换、其它合适的变换函数,或其任何组合。在某些情况下,一或多个块变换(例如,大小32x 32、16x 16、8x 8、4x 4,或其它合适的大小)可应用于每一CU中的残余数据。在一些实施例中,TU可用于由编码器引擎106实施的变换和量化过程。给定的具有一或多个PU的CU还可包含一或多个TU。如下文中更详细描述,可使用块变换将残余值变换成变换系数,且接着可使用TU对其进行量化和扫描以产生用于熵译码的串行化变换系数。
在一些实施例中,在使用CU的PU的帧内预测性或帧间预测性译码后,编码器引擎106可以计算CU的TU的残余数据。PU可以包括空间域(或像素域)中的像素数据。TU可包括在块变换的应用之后的变换域中的系数。如前文所述,残余数据可以对应于在未经编码图片的像素与对应于PU的预测值之间的像素差值。编码器引擎106可形成包含CU的残余数据的TU,并且接着可变换TU以产生CU的变换系数。
编码器引擎106可以执行变换系数的量化。量化通过对变换系数进行量化以减小用于表示系数的数据的量来提供进一步压缩。举例来说,量化可以减小与系数中的一些或全部相关联的位深度。在一个实例中,可在量化期间将具有n位值的系数向下舍入到m位值,其中n大于m。
一旦执行量化,经译码视频位流就包含经量化变换系数、预测信息(例如,预测模式、运动向量、块向量等)、分割信息,和任何其它合适的数据(例如其它语法数据)。经译码视频位流的不同元素随后可以由编码器引擎106进行熵编码。在一些实例中,编码器引擎106可以利用预定义扫描次序扫描经量化变换系数以产生可经熵编码的串行化向量。在一些实例中,编码器引擎106可以执行自适应扫描。在扫描经量化变换系数以形成向量(例如,一维向量)之后,编码器引擎106可以对向量进行熵编码。举例来说,编码器引擎106可以使用上下文自适应可变长度译码、上下文自适应二进制算术译码、基于语法的上下文自适应二进制算术译码、概率区间分割熵译码或另一合适的熵编码技术。
如先前描述,HEVC位流包含NAL单元的群组,包含VCL NAL单元和非VCL NAL单元。VCL NAL单元包含形成经译码视频位流的经译码图片数据。举例来说,形成经译码视频位流的位序列存在于VCL NAL单元中。除其它信息之外,非VCL NAL单元还可含有具有与经编码视频位流有关的高层级信息的参数集。举例来说,参数集可包含视频参数集(VPS)、序列参数集(SPS)和图片参数集(PPS)。参数集的目标的实例包含位速率效率、错误复原以及提供系统层接口。每一切片参考单个现用PPS、SPS和VPS以存取解码装置112可以用于解码切片的信息。可对用于每一参数集的识别符(ID)进行译码,包含VPS ID、SPS ID和PPS ID。SPS包含SPS ID和VPS ID。PPS包含PPS ID和SPS ID。每一切片标头包含PPS ID。使用ID,可识别针对给定切片的现用参数集。
PPS包含适用于给定图片中的所有切片的信息。因为这一点,图片中的所有切片涉及相同PPS。不同图片中的切片也可以涉及相同PPS。SPS包含适用于相同经译码视频序列(CVS)或位流中的所有图片的信息。如先前描述,经译码视频序列是一系列存取单元(AU),其开始于基础层中的随机存取点图片(例如,瞬时解码参考(IDR)图片或断链存取(BLA)图片,或其它适当的随机存取点图片)且具有特定性质(上文所描述的),直到具有基础层中的随机存取点图片且具有特定性质(或位流的末尾)的下一AU且不包含所述下一AU。SPS中的信息并不会在经译码视频序列内在图片之间发生改变。经译码视频序列中的图片可以使用同一SPS。VPS包含适用于经译码视频序列或位流内的所有层的信息。VPS包含具有适用于整个经译码视频序列的语法元素的语法结构。在一些实施例中,VPS、SPS或PPS可以与经编码位流一起带内发射。在一些实施例中,VPS、SPS或PPS可以在与含有经译码视频数据的NAL单元分开的发射中带外发射。
视频位流还可包含补充增强信息(SEI)消息。举例来说,SEI NAL单元可以是视频位流的部分。在一些情况下,SEI消息可以含有解码过程所不需要的信息。举例来说,SEI消息中的信息对于解码器解码位流的视频图片可能不是必要的,但解码器可使用所述信息来改进图片的显示或处理(例如,经解码输出)。SEI消息中的信息可以是嵌入式元数据。在一个说明性实例中,SEI消息中的信息可由解码器侧实体使用以改进内容的可检视性。在一些例子中,某些应用标准可授权位流中的此类SEI消息的存在,使得质量的改进可以被引入到符合应用标准的所有装置(例如,用于帧兼容平面立体3DTV视频格式的帧封装SEI消息的携载,其中携载SEI消息用于视频的每个帧,处理恢复点SEI消息,使用全屏幕扫描来扫描DVB中的矩形SEI消息,以及许多其它实例)。
编码装置104的输出110可以将构成经编码视频位流数据的NAL单元经由通信链路120发送到接收装置的解码装置112。解码装置112的输入114可以接收NAL单元。通信链路120可以包含由无线网络、有线网络或有线和无线网络的组合提供的信道。无线网络可以包含任何无线接口或无线接口的组合,并且可以包含任何合适的无线网络(例如,因特网或其它广域网、基于包的网络、WiFiTM、射频(RF)、UWB、WiFi-Direct、蜂窝式、长期演进(LTE)、WiMaxTM或类似物)。有线网络可以包含任何有线接口(例如,光纤、以太网、电力线以太网、同轴电缆上的以太网、数字信号线(DSL)或类似物)。有线和/或无线网络可以使用各种设备实施,所述设备例如,基站、路由器、接入点、桥接器、网关、交换器或类似物。经编码视频位流数据可以根据例如无线通信协议等通信标准来调制,且发射到接收装置。
在一些实例中,编码装置104可以在存储装置108中存储经编码视频位流数据。输出110可检索来自编码器引擎106或来自存储装置108的经编码视频位流数据。存储装置108可包含多种分布式或本地存取的数据存储介质中的任一个。举例来说,存储装置108可以包含硬盘驱动器、存储盘、快闪存储器、易失性或非易失性存储器,或用于存储经编码视频数据的任何其它合适的数字存储介质。
解码装置112的输入114接收经编码视频位流数据,且可将视频位流数据提供到解码器引擎116或提供到存储装置118以用于由解码器引擎116稍后使用。解码器引擎116可通过对组成经编码视频数据的一或多个经译码视频序列的元素进行熵解码(例如,使用熵解码器)和提取来解码经编码视频位流数据。解码器引擎116可随后重新按比例缩放经编码视频位流数据并且其执行逆变换。随后将残余数据传递到解码器引擎116的预测级。解码器引擎116随后预测像素块(例如,PU)。在一些实例中,将预测添加到逆变换的输出(残余数据)。
解码装置112可将经解码视频输出到视频目的地装置122,所述视频目的地装置可以包含显示器或其它输出装置以用于将经解码视频数据显示给内容的消费者。在一些方面中,视频目的地装置122可以是包含解码装置112的接收装置的部分。在一些方面中,视频目的地装置122可以是除接收装置外的单独装置的部分。
在一些实施例中,视频编码装置104和/或视频解码装置112可以分别与音频编码装置和音频解码装置集成。视频编码装置104和/或视频解码装置112还可以包含实施上文所描述的译码技术所必需的其它硬件或软件,例如,一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。视频编码装置104和视频解码装置112可以集成为相应的装置中的组合编码器/解码器(编解码器)的一部分。下文参考图23描述编码装置104的具体细节的实例。下文参考图24描述解码装置112的具体细节的实例。
对HEVC标准的扩展包含称为MV-HEVC的多视图视频译码扩展以及称为SHVC的可缩放视频译码扩展。MV-HEVC和SHVC扩展共享分层译码的概念,分层译码具有包含于经编码视频位流中的不同层。经译码视频序列中的每一层通过唯一层识别符(ID)寻址。层ID可以存在于NAL单元的标头中以识别与NAL单元相关联的层。在MV-HEVC中,不同层可表示视频位流中的同一场景的不同视图。在SHVC中,提供表示不同空间分辨率(或图片分辨率)或不同重建保真度的视频位流的不同可缩放层。可缩放层可以包含基础层(具有层ID=0)和一或多个增强层(具有ID=1、2……n)。基础层可以符合HEVC的第一版本的简档,并且表示在位流中的最低可用层。与基础层相比,增强层具有增加的空间分辨率、时间分辨率或帧速率和/或重建保真度(或质量)。增强层是阶层式组织的并且可(或可不)依赖于较低层。在一些实例中,不同层可以使用单个标准编解码器译码(例如,所有层使用HEVC、SHVC或其它译码标准进行编码)。在一些实例中,可使用多标准编解码器对不同层进行译码。举例来说,基础层可以使用AVC进行译码,而一或多个增强层可以使用HEVC标准的SHVC和/或MV-HEVC扩展进行译码。
一般来说,层包含VCL NAL单元集合和对应的非VCL NAL单元集合。NAL单元被指派特定层ID值。在层可依赖于较低层的意义上,层可为阶层式的。层集合是指在位流内表示的自含式的层集合,这意味着层集合内的层可能在解码过程中依赖于层集合中的其它层,但并不依赖于任何其它层来进行解码。因此,层集合中的层可形成可表示视频内容的独立位流。可通过子位流提取过程的操作从另一位流获得层集合中的层的集合。层集合可对应于在解码器希望根据某些参数进行操作时将被解码的层集合。
在一些实施方案中,用于捕获360度视频的相机组可包含全向相机、反射折射相机(使用透镜和弯曲镜面的相机)、装备有鱼眼镜头的相机,和/或其它合适的相机。全向相机的一个实例为Ricoh Theta-S,其使用在相对方向中聚焦的两个鱼眼镜头。
例如反射折射相机和具有鱼眼镜头的相机等全向相机捕获的图像通常具有大量失真。图2A和图2B示出使用鱼眼镜头来捕获宽视场的全向相机所捕获的视频帧的实例。在图2A的实例中,视频帧200包含圆形鱼眼图像。鱼眼镜头能够捕获极宽角度,例如280度或更大。因此,装备有背对背定位的两个鱼眼镜头的相机可捕获一起提供360度视图(或更大)的两个图像。非广角鱼眼镜头捕获近似约45到约90度的视场。视场可作为替代或另外以弧度表达。
为了捕获广角,鱼眼镜头使场景的图像失真。如图2A中所示出,视频帧200中捕获的场景为圆形形状,且从此圆形区的中心向外缘扭曲。因为相机传感器为矩形,所以视频帧200为矩形且图像包含(此处使用点画法示出)并非场景的一部分的区域。这些区中的像素被视为不可用的,因为这些像素不是场景的一部分。
图2B的实例包含视频帧202,所述视频帧包含全帧鱼眼图像。在此类型的视频帧202中,还已在圆形区中捕获广角视场,其中场景向圆形区中扭曲。在此实例中,图像已经缩放(例如,放大),因此场景填充矩形帧的边缘。此实例视频帧202不包含不可用的区域,且可由镜头捕获的场景的一些部分已经裁剪掉或未捕获。
如上文所描述,其它类型的相机也可用于捕获360度视频。举例来说,相机组可包含一组多个相机(例如,5个、6个、7个,或捕获场景的足够数量的视图所需的其它数目的相机)。每一相机可在不同方向中定向且捕获场景的不同视图。可随后对由相机组中的相机中的每一个捕获的视频帧(或图像)执行图像拼接以提供无缝360度视图。
360度视频数据本质上为球面的,且可重新映射到其它格式。这些其它格式可用于存储、编码、发射、解码、渲染和/或检视360度视频。一个实例格式为等矩形格式。图3示出基于两个鱼眼图像302A、302B的等矩形视频帧300的实例。在此实例等矩形视频帧300中,来自两个鱼眼图像302A、302B的可用像素(例如,圆形区中的像素)已经映射成等矩形格式。在此实例中,每一鱼眼图像302A、302B包含180度或更大视场,使得,两个鱼眼图像302A、302B一起涵盖360度视场(可能具有一些重叠)。
映射来自鱼眼图像302A、302B的像素具有使鱼眼图像302A、302B中捕获的场景不再扭曲且朝向视频帧300的边缘拉伸像素的效果。所得等矩形图像可看上去在视频帧300的顶部和底部处拉伸。众所周知的等矩形投影为墨卡托投影(Mercator projection),其中地球的地形以正交的经线和纬线呈现。
在各种实施方案中,鱼眼图像302A、302B可映射到其它格式,例如映射到由立方体、圆柱、锥形、截断正方锥(TSP)或某一其它几何形状形成的面上。在这些情况中的每一个中,在使用鱼眼镜头的状况下,鱼眼图像302A、302B中存在的失真可被校正,且可消除不可用的像素。平面数据还可封装以供存储和/或发射,且可用于显示360度视频。下文关于图5A-图5D描述TSP几何形状的实例。在某些情况下,中间格式可能是有用的。例如用于存储和/或发射360度视频数据,或用于将视频数据转换为另一格式。
图4A和图4B示出360度视频呈现中使用的360度视频帧400的实例。360度视频帧400可映射到球面空间上以形成表示360度场景或环境的球面表示410(也称为球面)。所得球面表示410的区430(例如,对应于检视者420的视场(FOV))可使用360度显示装置显示给检视者420,所述360度显示装置例如头戴式显示器(HMD)或非HMD显示器(例如,TV、移动装置、可穿戴式装置,或其它合适的360度视频显示装置)。举例来说,当360度视频在360度视频显示装置上重放时,可渲染视口460以供显示给用户。视口460可以是360度视频帧400的与球面相切的平面(例如,所述平面在区430中的某一点处与所述球面相交)上的区(例如,矩形区,或其它合适的形状),其中视口460的平面正交于用户的检视方向。在一个说明性实例中,可通过应用投影技术将来自球面表示410上的区430的视频数据映射到360度视频帧400的对应于视口460的平面上来产生视口。投影技术的实例包含直线投影(例如,如JVET-D1030中所论述)、立体平画投影、圆柱形投影,或其它合适的投影技术。在一些实例中,球面上的对应于视口的区可包含被四个大圆的四个段围封的区。
在各种实例中,所捕获的360度视频帧可映射到TSP几何形状、等矩形格式、立方体几何形状、圆柱形几何形状、锥形几何形状,或任何其它合适的几何形状,用于译码、发射和/或存储。在某些情况下,所述几何形状可使用帧封装结构封装到2D视频帧中。几何形状可随后映射到球面空间且由360度视频显示装置使用以显示视频。一旦360度视频帧400已映射到球面表示410,球面表示410的对应于检视者的FOV(例如,视口460)的部分就可通过渲染视口460来显示。检视者420使用360度视频显示装置可从球面表示内检视球面表示410的所述部分。在大多数情况下,检视者420经定位使得从检视者的视角的“地面”是球面表示的最底部点。在某些情况下,球面表示410的赤道定位于检视者的视平线处。在各种实施方案中,球面表示410可扩展或收缩以适合检视者420的高度和/或位置(例如,如果检视者420正坐着、站立,或在某一其它位置中)。
如上所述,本文中描述用于确定映射(投影)到几何形状的一或多个平面的360度视频数据的视口感知质量度量的一或多个系统和方法。如上所述,视口指代360度场景内的特定视图。举例来说,可通过在360度场景内从不同视点或定向捕获视频帧来产生360度场景的多个视口表示。每一视口表示与360度场景的不同视口相关联。可限定提供360度场景的球面表示的球面(例如,球面表示410)。检视者可使用例如头戴式显示器、移动装置和/或其它合适的装置等360度视频显示装置检视球面。
一或多个窗口可限定在球面上。可基于特定视口表示在球面上限定窗口。窗口可表示球面上的可检视区(可观察窗口)。举例来说,窗口可至少部分地基于视口表示投影到的几何形状的前面的视场(FOV)来限定。其它因素也可在限定窗口时考虑。举例来说,可针对对应于特定视口表示的窗口计算概率加权的可观察窗口大小。可基于对应于所述表示的几何形状的前面的FOV、所述窗口和捕获360度场景的视图的一或多个其它表示的一或多个其它窗口之间的分隔量、360度视频数据的检视者的所估计头部转速、与360度视频数据的表示之间的切换相关联的切换延迟或其任何组合计算窗口的概率加权的可观察窗口大小。可随后确定窗口内的视频数据的视口感知质量度量。在某些情况下,可在球面上限定多个窗口,其对应于针对360度场景捕获的一些或所有视口表示。可针对所有窗口确定视口感知质量度量。可随后针对视口表示确定组合视口感知质量度量。
任何合适的几何形状可用于360度视频数据的球面视频的投影。一个说明性实例为截断正方锥。TSP投影在2016年8月31日申请的第15/253,447号美国专利申请中描述,所述美国专利申请的全文出于所有目的特此以引用的方式并入本文中。完全360度视频帧可含有大量数据,且在某些情况下比任何给定时刻检视者可看到的更多数据。因此,在各种实施方案中,球面视频数据或立方体提供的六个面可映射到TSP几何形状的六个面。图5A示出由映射到TSP几何形状530的球面500表示的虚拟环境的实例。如所展示,TSP几何形状530是顶部已切断的正方锥,且因此具有正方形底部(前面532)、正方形顶部(后面538)和四个梯形侧部(右面536、左面534、底面542和顶面540)。在数学上,截断正方锥被描述为正方锥的锥形平截头体。
360度视频帧可包含360度的像素数据量,且因此呈球面形状。通过将球面500的球面视频数据映射到由TSP 530提供的平面上,可减小360度视频帧的总大小,同时牺牲检视者的视场的边缘处的一些保真度。举例来说,如图5A所示,球面500中的像素可直接映射到TSP几何形状530的六个面上。在某些情况下,球面500中的像素可映射到立方体几何形状的六个面上,且接着从立方体几何形状映射到TSP几何形状530。在各种实施方案中,其它三维形状可用于表示球面帧数据。在此实例中,六个面表示完全帧视频;也就是说,表示来自特定定向的视图的全部360度。
在某些情况下,TSP 530的平面可经定向使得TSP的底部(最大面)表示前视图,且TSP的顶部(最小面)表示后视图。如本文中所使用,TSP 530的面可相对于当检视特定视频帧时检视者正观察的方向来参考。举例来说,TSP的底部被称作前面532,TSP的顶部被称作后面538,且TSP的侧部被称作右面536、左面534、顶面540和底面542。使用这些名称,前面532视为“前”,因为其是检视者被认为朝向的方向,左面534在检视者的左侧,右面536在检视者的右侧,等等。在一些实例中,TSP的前面532(对应于前视图)可以完全分辨率捕获,后面538(针对后视图)可以减小的分辨率捕获,且右面536、左面534、顶面540和底面542可以递减的分辨率捕获(从前向后呈锥形的方式)。
在某些情况下,需要至少六个完全TSP映射(每立方体面一个)来表示完全球面500。在一些实例中,TSP映射可重叠以产生较好的球面500的表示和检视体验。举例来说,如图5D中所示,可针对球面的不同视图或定向产生30个TSP映射。如下文更详细地描述,视频发射装置(例如,编码装置104或其它合适的装置)可发射,或玩家装置可播放,具有对应于检视者的当前视场的最高质量面(TSP的前面)的第一视口表示(对应于第一TSP地图)。视频发射装置和/或玩家装置可取决于检视者的头部定向切换到第二视口表示(对应于第二TSP地图)以便为球面500内的新定向提供具有TSP的高质量前面的新表示。如果第二视口表示(具有第二TSP地图)的发射或切换延迟,则检视者可被呈现第一视口表示(具有第一TSP地图)直至第二视口表示(具有第二TSP地图)到达。在此实例中,取决于检视者的头部定向和TSP地图,所体验的质量可能降低,直至接收到第二TSP地图。
图5B是示出已映射到TSP几何形状的视频数据帧的帧封装结构的实例的图式。图5C是已根据图5B中示出的实例帧封装结构封装的视频帧的实例。帧封装结构可限定用于将视频帧的数据封装到可由视频解码器存储、输送和处理的单个数据块中的格式。也就是说,帧封装结构可指示哪个数据应位于数据块中的哪个点处。在图5B中示出的实例帧封装结构中,TSP的扭曲侧(右面536、左面534、顶面540和底面542)在后面538周围分组,且全部位于前面532附近。举例来说,左面534、右面536、顶面540和底面542的数据已经封装在后面538的数据周围。如所展示,左面534已放置成邻近于后面538的左边缘(其在图中看上去在后面538的右边缘上,因为后面538在图中示出为镜像)。类似地,右面536放置成邻近于后面538的右边缘。顶面540封装在后面538上方,且底面542封装在后面538视图的下方。在某些情况下,左面534、右面536、顶面540和底面542的数据可扭曲以配合到正方形或矩形数据块中。在各种实施方案中,还可调整后面538的大小。举例来说,后面538可以是前面532的大小的1/4、1/16或其它分数。左面534、右面536、顶面540、底面542和后面538的组合数据可封装到图5B中示出的帧封装结构中,在以完全分辨率保留的前面532的数据附近。使用此实例帧封装结构,可将帧的数据封装到矩形数据块中。
前面532和各个扭曲侧之间的过渡是连续的(例如,随着用户改变头部定向)。在图5B中,条纹线表示在编码帧之前可能需要的用以避免跨越帧边界的过渡伪影的帧边界延伸。如上所述,TSP几何形状的一个优点是,从前面532(具有最高质量)朝向后面538(具有最低质量)的平滑质量过渡,其中随着锥形右面536、左面534、顶面540和底面542的几何形状从前面532向后面538移动,此些面具有递减的质量。
在各种实施方案中,例如在图5B中示出的根据帧封装结构封装的帧可包含指示帧中使用的封装结构的信息(例如,旗标、字段和/或代码)。解码装置可使用所指示的封装结构来识别位于数据块中表示帧的特定点处的视频数据。
在如上文所描述封装后,可处理视频数据帧以用于存储和/或发射。举例来说,可编码、压缩和/或囊封帧。可以类似方式封装360度视频数据的每一帧,且封装的帧可依序封装在位流中。所述位流可经存储和/或发射。
TSP前面532的分辨率与立方体几何形状的前面相同,且可表示球面内的任何其它视口定向。下表1呈现与4K、6K和8K等矩形投影(ERP)分辨率以及使用TSP几何形状的对应分辨率对应的TSP解码分辨率的实例。
表1
如所展示,TSP分辨率是对应的4K、6K、8K ERP分辨率的75%。举例来说,TSP像素计数与ERP相比减小75%。这显著降低解码器要求,或相反,3840×1920解码器将能够等效地解码8K ERP分辨率。因为基于TSP的视口方案在位流之间切换,如下文所描述,单个解码器会话已足够。
如上所述,在一些实施方案中,球面500中的像素可映射到立方体几何形状的面上,且接着从立方体几何形状映射到TSP几何形状。下表2示出用于从立方体面到TSP面以及从TSP面到立方体面的映射的前向和逆向扭曲等式的实例。(x,y)坐标是TSP地图内部的坐标(帧被映射的TSP面封装)。单个立方体地图面内部的坐标(x',y')具有正规化范围[0.0,1.0]。在一个实例实施方案中,后面水平地和垂直地以因数4子取样。后TSP面的实例为后面538,右TSP梯形的实例为右面536,左TSP梯形的实例为左面534,底TSP梯形的实例为底面542,且顶TSP梯形的实例为顶面540。如上所述,TSP的前面(前面532)与立方体的前面相同,在此情况下,不需要扭曲或映射。
表2
图5D是示出对应于投影到TSP几何形状上的360度场景的视口表示的TSP映射的实例的图式。如所展示,针对表示360度场景的球面的不同视图或定向产生30个TSP地图。举例来说,可通过在360度场景内从不同视点或定向捕获视频帧来产生360度场景的多个视口表示。每一视口表示是从360度场景内的特定视图捕获的视频帧流,且因此与360度场景的不同视口相关联。视口表示中的每一个可对应于不同TSP地图,例如图5D中示出的30个TSP地图中的一个。举例来说,每一视口表示的360度帧映射到TSP几何形状(如图5A所示)且可封装到帧中(如图5B所示)。图5D中示出的30个TSP地图中的每一个(对应于特定视口表示)来自360度场景中的不同定向,且为给定定向提供具有高质量的不同前面。举例来说,TSP地图550相对于场景中的参考点处于(180°,45°)定向,且包含表示所述定向处场景的视频数据的具有高质量的前面。30个TSP地图全部一起提供整个360度场景的360°视图。
虽然TSP地图在图5D中展示为视口表示的视频帧可映射到的几何地图的说明性实例,但一般技术人员将了解,还可使用其它几何地图,例如立方体地图、圆柱形地图或其它合适的几何地图。
图6是示出视口感知360度视频系统600的实例的图式。视口感知360度视频系统600瞄准由网络和视频解码器强加的带宽和解码约束内高分辨率360度视频(例如,4K视频等)的递送。相比于非基于视口的方案,基于视口的方案具有影响所递送视频质量的若干额外因素和/或参数。
视口感知360度视频系统600可向360度视频显示装置递送视口表示(例如,由例如TSP地图等几何地图表示),其中360度视频数据以完全质量(例如,以完全分辨率)表示最接近于检视者的视场(FOV)的球面上的视口,所述视口的所述360度视频数据的剩余部分以较低质量提供。举例来说,具有TSP地图(其中前面(例如,前面532)对应于检视者的FOV)的视口表示可被提供到360度视频显示装置且由360度视频显示装置渲染。球面可由多个视口覆盖,从而允许基于检视者的头部定向和/或位置在视口表示之间无缝切换。在某些情况下,多个视口可在球面上重叠。视口表示之间的切换(例如,图5D中示出的TSP地图中的两个之间的切换)可随着检视者的头部定向跨越一或多个视口切换边界而发生。
替代的方法可以是,将完全360度视频内容发射到检视者。在此方法中,所有可能视口对于检视者来说同时可用,尽管检视者的头部位置正朝向一个特定方向(限定当前视口)。此方法需要大量发射带宽及其它资源,这是归因于提供了检视者不能检视的视频数据。视口感知360度视频系统600可用于通过将所发射的内容限制于仅当前视口需要的视频数据来节省发射带宽。视口感知360度视频系统600和/或客户端装置604可在检视者的头部位置改变时切换为发射不同视口。
视口表示之间的切换可在随机存取点(RAP)图片(或IRAP图片)处发生。为了实现视频轨道之间的快速切换,插入具有特定周期(例如,1秒周期、1.5秒周期、2秒周期或任何其它合适的周期)的时间对准周期性RAP图片。对于DASH串流(例如,使用图6所示的系统600),段或子段可以与RAP图片对准。在切换期间,检视者可继续检视先前视口表示直至对应于当前视口的视口表示(例如,由检视者或玩家请求的最后一个轨道)到达。使用TSP几何形状作为一实例,可显示映射到TSP地图的梯形侧的视频数据(其与TSP的前面相比处于减小的质量)直至当前视口表示被接收和渲染以供显示。可依据RAP周期、客户端中的重放缓冲量及其它因素确定切换延迟(或切换持续时间)。对于给定平均切换延迟,所使用的几何形状和/或投影、视口的数目和分布以及头部转速可用于确定球面上的可检视区。
参看图6,视口感知360度视频系统600包含服务器602和客户端装置604,其基于联网协议经由网络606彼此以通信方式耦合。在一个说明性实例中,服务器602可包含传统HTTP网络服务器,且客户端装置604可包含传统HTTP客户端。在此实例中,可建立HTTP通信信道,在此情况下,客户端装置604可将请求视口表示的HTTP请求发射到服务器602。服务器602可将包含映射到几何地图(例如,TSP地图、立方体地图、立体地图等)的所请求视口表示的HTTP响应发射回到客户端装置604。在某些情况下,视口表示可划分成媒体段。媒体段可包含视频帧序列。客户端装置604可包含串流应用608以经由网络606建立与服务器602的串流会话。在串流会话期间,串流应用608可经由网络606将针对视口表示的一或多个媒体段的请求发射到服务器602的请求处理器610。串流应用608可接收所请求的一或多个媒体段,且可在客户端装置604上渲染所接收媒体段中的一些或全部。使用此类HTTP串流,串流应用608不需要等待到整个媒体内容已完全下载就可在客户端装置604处渲染媒体内容,这可促进网络资源的较好利用并改进用户体验。
服务器602可针对360度场景内的不同部分和/或定向提供区别在于具有较好质量的相同360度场景的多个视口表示。服务器602可(经由网络606)发射给定媒体段文件的若干视口表示。每一视口表示对应于不同几何地图(例如,TSP地图)。举例来说,媒体段文件620可包含30个视口表示,包含第一视口表示622至第三十视口表示624。使用图5D作为一实例,30个视口表示中的每一个可对应于30个TSP地图中的一个不同TSP地图。具有对应于检视者的当前视场的最高质量前面的第一视口表示622(对应于第一TSP地图)可由服务器602发送到客户端装置604。帧626(使用TSP几何形状封装)是来自第一视口表示622的帧的实例。服务器602或客户端装置604可随着用户的头部移动到球面的不同部分而切换到另一视口表示(例如,第三十视口表示624)。帧628(使用TSP几何形状封装)是来自第三十视口表示624的帧的实例。
在某些情况下,多个媒体段文件可由服务器602维持。举例来说,每一媒体段文件可涉及完全媒体文件的特定时间点和持续时间。与媒体段文件相关的信息可以是由服务器602维持的描述文件660(或清单文件)的部分。客户端装置604可从服务器602获得描述文件660,且可基于描述文件660发射针对特定媒体段文件的特定视口表示的请求。描述文件660可包含(例如)每一媒体段文件的一组视口表示的列表,以及与每一视口表示相关联的性质(例如,定向、分辨率、位速率、帧速率、分辨率、音频语言等)。描述文件660还可包含与替代的媒体段文件的存储位置相关联的位置识别符(例如,统一资源定位符(URL)、统一资源指示符(URI)等)。各种协议可由视口感知360度视频系统600使用。一个实例包含超文本传送协议(HTTP)上的动态自适应串流、或DASH(ISO/IEC23009-1:2014中限定)。DASH,其也被称为MPEG-DASH。依据DASH,描述文件660可包含媒体呈现描述(MPD)。
存在相对于评估视口切换系统(例如,视口感知360度视频系统600)的质量的问题。举例来说,使用例如TSP、立方体地图等特定几何形状评估视口切换系统的质量的一个问题是,此类系统利用多个表示(各自具有360度场景内的特定定向),且取决于检视者的头部定向在所述多个表示之间切换。举例来说,如上文所描述,每一视口表示表示具有最佳质量(例如具有90度视场(FOV))的不同前视口,而对于球面的其余部分质量较低。基本原理是,在客户端装置切换到具有更接近检视者的新头部定向的前视口定向的视口表示之前,检视者最可能观察前视口和邻近区的一些部分。
本文中所描述的质量度量包含360度视频的视口感知质量度量。如上所述,视口指代360度场景内的特定视图。可通过从360度场景内的不同视点或定向捕获视频帧来产生360度场景的多个视口表示,其中每一表示与360度场景的不同视口相关联。可基于提供360度场景的球面表示的球面上限定的一或多个窗口确定视口感知质量度量。视口感知质量度量(或组合视口感知质量度量)指示当映射到几何形状时360度视频数据的质量。举例来说,视口感知质量度量可表示原始360度视频和经译码360度视频之间的比较。此度量是有价值的,这是归因于由于取回球面上的点所需的逆向映射的缘故,几何域中的误差不反映球面上的误差。
图7是示出表示360度视频场景的球面702上限定的窗口704的实例的图式。窗口704可用于计算视口感知质量度量,如下文进一步更详细描述。可基于正为其限定窗口的视口表示在球面702上限定窗口704。举例来说,窗口704可至少部分地基于视口表示投影到的几何形状的前面的视场FOV来限定。使用TSP作为一实例,对应于视口表示的360度视频数据的最高分辨率部分的TSP的前面(例如,TSP 530的前面532)可用于限定所述视口表示的窗口。举例来说,窗口704可在每一视口表示的几何地图(例如,TSP地图)的前面上居中,且窗口704的视口感知质量度量的计算限于窗口704内的球面上的视频数据。
在一些实例中,如图7所示,对于具有定向纵摇Φ和横偏θ的几何形状(例如,TSP、立方体等)的前面,用于计算视口感知质量度量的具有大小(Δθ,ΔΦ)的窗口由区间[Φ-ΔΦ/2,Φ+ΔΦ/2]和[θ-Δθ/2,θ+Δθ/2]限定,如图7中所示出。(θ,Φ)(图7中x处示出)表示几何形状的前面的中心(例如,TSP 530的前面532的中心)相对球面的中心706的定向。在某些情况下,此比较中的窗口大小的范围可以是纵摇90°到180°,且横偏90°到360°。纵摇Φ和横偏θ可对于每一视口表示是已知的,例如基于视口表示在360度场景中对应于的已知定向。包含限定窗口的宽度和高度的(Δθ,ΔΦ)的限定大小的参数可基于各种因素确定,如下文所描述。
在某些情况下,可在球面上限定多个窗口,且可针对所有窗口确定视口感知质量度量。多个窗口可对应于可用于360度场景的视口表示中的一些或全部。使用图5D作为一实例,可在球面702上限定30个窗口,其中针对每一TSP地图(且因此针对捕获360度场景的视频的30个视口表示中的每一个)限定一个窗口。窗口可在球面上重叠,如图9(下文描述)所示。图8A和图8B是示出不同视口表示的前面几何形状中心的分布的图式。图8A示出用于评估视口感知质量度量的具有窗口中心(表示为点)的球面802的俯视图。图8B示出具有窗口中心(表示为点)的球面802的侧视图。
在图8A和图8B中展示的实例中,存在总共30个视口表示,在此情况下存在球面上限定的30个窗口。每一点表示视口表示映射到的几何形状的前面的中心。如所展示,存在赤道(由线812表示)上的12个表示窗口,纵摇+45°(由线804表示)处的8个表示窗口,纵摇-45°(由线806表示)处的8个表示窗口,以及极点中的每一个处的1个表示窗口(极点808处的一个表示窗口和极点810处的一个表示窗口)。可使用球面802上窗口的任何其它合适的分布。举例来说,分布(未图示)的另一实例包含50个表示,其中10个表示窗口可放置在纵摇角+30°和-30°处,且8个表示窗口可放置在纵摇角+60°和-60°处,以及另外12个表示窗口在赤道上且2个表示窗口在极点处。
图9是示出具有针对两个不同的视口表示限定的两个窗口(第一窗口910表示为Window1,且第二窗口912表示为Window2)的球面902的俯视图的图式。图9中的图式示出在不存在头部旋转的优选或可能方向的情况下检视者很可能以相等概率观察的窗口。第一窗口910对应于第一视口表示的帧映射到的几何形状(例如,TSP、立方体等)的前面。第二窗口912对应于第二视口表示的帧映射到的几何形状(例如,TSP、立方体等)的前面。第一窗口910的中心(表示第一视口表示映射到的几何形状的前面的中心)以具有数字1的点914示出。第二窗口912的中心(表示第二视口表示映射到的几何形状的前面的中心)以具有数字2的点916示出。
在图9中展示的实例中,视口表示的前面之间的分隔为30°。可使用视口表示之间的任何其它合适的分隔。切换阈值位于邻近视口表示之间的中间的角度处。基于这些实例,假定不存在切换延迟,检视者可在发生到邻近表示的切换之前旋转+/-15°。如果几何形状(针对视口表示)的前面的视场(FOV)为90°,则检视者可在此实例中有可能观察120°窗口(图9中的第一窗口910)。在切换之后(当检视者旋转到点914和点916之间的半途的切换阈值时),在下一切换发生之前可能可以观察到新120°窗口(图9中的第二窗口912)。如所展示,120°窗口在图9中重叠,使得当切换发生时FOV始终包含在窗口内部。
在一些实例中,当假定零切换延迟时,窗口大小以度数(对于纵摇和横偏有效)限定为等于几何形状的前面(例如,前面532)的FOV与视口表示之间的分隔的总和。举例来说,参考图9,第一窗口910和第二窗口912中的每一个具有90°的FOV,且每一视口表示之间的分隔为30°。在此实例中,第一窗口910和第二窗口912可确定为具有针对纵摇和横偏两者的120°(90°FOV+30°前视口分隔)的大小。使用来自图7的记法,表示宽度的横偏的改变(Δθ)和表示高度的纵摇的改变(ΔΦ)可均设定成120°。如下文所描述,可针对每一视口表示上居中的此窗口计算视口感知质量度量。
在现实世界情境中,视口表示之间的切换的切换延迟非零,在此情况下,可使窗口大小大于对于零切换延迟所计算出的可观察窗口。在此些情况下,视口表示的窗口的大小可基于几何形状的前面(例如,前面532)的FOV、视口表示之间的分隔,并且还基于与切换延迟相关联的因素。切换延迟具有若干贡献因素。一个贡献因素是RAP周期(或经帧内译码图片的IRAP周期),因为切换可仅在RAP(或IRAP)图片处发生。切换延迟的第二贡献因素为帧周期,其为渲染视频图片或帧所需的周期。帧周期促成切换延迟,因为当新图片在下一帧区间处渲染时发生切换。帧周期可比IRAP周期小得多。举例来说,对于30帧/秒视频,可能花费33毫秒来渲染帧,而IRAP周期可以是完整的一秒或其它类似值。第三贡献因素是可能的缓冲延迟。
在某些情况下,可观察的窗口大小还可取决于检视者的头部转速(度/秒),因为相比于其它头部转速,对于给定头部转速,检视者将在切换发生之前观察球面的或多或少部分。在极端实例中,有可能检视者可在切换之前观察整个球面(360°窗口)。
基于上文所描述的因素,概率加权可观察窗口大小可计算如下:window_size=FOV+front_viewport_separation+rotational_speed x switching_delay x 2,
其中FOV表示视口表示映射到的几何形状的前面(例如,前面532)的FOV(例如,在图9的实例中,90°),front_viewport_separation表示视口表示之间的分隔(例如,在图9的实例中,30°),rotational_speed表示检视者的头部转速的概率,且switching_delay表示基于上文描述的促成视口表示之间的切换延迟的因素的所估计切换延迟。使用值2来考虑左和右/顶和底窗口侧。所述值可设定成任何合适的值。
每个窗口大小具有检视者将在切换到另一表示之前观察窗口中的内容的概率。举例来说,随着窗口大小改变,将存在检视者将检视窗口中的内容的不同概率。举例来说,随着窗口变大,检视者将检视整个窗口的概率将很可能降低。此概率还取决于检视者的头部转速的概率。举例来说,所述概率可随着头部速度减小(归因于较小的窗口大小)而增加,且可随着头部速度增加(归因于较宽的窗口大小)而减小。因此,窗口大小可随着头部速度增加而增加,且可随着头部速度减小而减小。合理地假定检视者将较可能具有比极快速度低的头部转速。在一个说明性实例中,头部转速的概率分布可以是指数分布。在某些情况下,经由对于许多检视者的实验,可估计概率分布的统计参数。基于此分布,可确定可观察窗口大小的概率。举例来说,可基于针对头部转速分布收集的统计数据而确定概率权重。在一个实例中,头部转速越高,则窗口大小变得越宽,但检视者将观察到窗口中的内容的可能性减小,从而导致所述窗口大小的较小概率权重。随后可基于每一表示上居中的概率加权的可观察窗口大小计算视口感知质量度量。
在针对球面(例如,针对图5D中示出的多个视口表示TSP地图)限定多个窗口的情况下,可确定视口表示的组合视口感知质量度量。举例来说,可针对每一视口表示限定窗口。可针对每个窗口使用每个窗口中球面的视频数据确定视口感知质量度量。所述窗口的各种视口感知质量度量可随后组合以确定组合视口感知质量度量。在一个说明性实例中,窗口的视口感知质量度量可求平均以确定组合视口感知质量度量。在另一实例中,来自窗口的视口感知质量度量的中值视口感知质量度量可用作组合视口感知质量度量。
现将描述视口感知质量度量的计算的实例。如上所述,几何(平面)域中的误差并不反映球面上的误差,这是由于取回球面上的点所需的逆向映射的缘故。在某些情况下,球面度量可用作视口感知质量度量。在一个说明性实例中,可计算开窗球面-PSNR(S-PSNR)度量且将其用作视口感知质量度量。基于开窗S-PSNR的分析允许量化视口表示的性质。
为了计算球面上窗口的S-PSNR,可在球面上确定在窗口内的一组均匀取样点。球面上的点可映射到地面实况帧(例如,译码之前的原始视频帧)上的对应位置,且还可映射到经译码图片(例如,使用TSP几何形状封装的帧)上的点。可通过应用从2D帧投影到球面以及从球面投影到2D帧的任何合适的数学投影来执行映射。可计算地面实况帧上和经译码图片上的位置处的像素值,且可确定这些像素之间的误差。可针对球面上的窗口中的每一取样点重复相同过程,且窗口中所有点的所得误差指示窗口的S-PSNR。可确定针对可用视口表示限定的所有窗口的组合S-PSNR,其可用于概述由视口表示提供的360度场景的所有可能视口上的平均质量。
本文中所描述的视口感知质量度量(或组合视口感知质量度量)指示映射到特定几何形状时360度视频数据的质量。举例来说,视口感知质量度量可表示原始360度视频和经译码360度视频之间的比较,且因此指示映射到特定几何形状时360度视频数据的译码效率。使用TSP作为一实例,当映射到TSP几何形状时不同视口表示的译码效率可基于所确定的视口感知质量度量(或组合视口感知质量度量)来提供。使用一种类型的几何形状的视口切换机制的译码效率(用于映射各种视口表示的360度视频数据)可与使用一或多个其它几何形状的一或多个其它视口切换机制比较。
在一个说明性实例中,TSP投影可与经下取样立方体地图投影(DCP)进行比较。图10是示出经下取样立方体地图投影(DCP)的实例的图式。举例来说,360度视频数据映射到等矩形帧1002,且在帧中作为使用立方体几何形状的立方体地图1004来封装。随后产生经下取样立方体地图投影的立方体(DCP)地图1006。在DCP地图1006中示出DCP帧封装结构。对于TSP,DCP地图1006的前面等效于立方体地图1004的前面。DCP地图1006的其它面可水平地和垂直地以因数2下取样。对于DCP,可产生具有与用于TSP相同的球面分布的30个视口。下表3列举与ERP帧分辨率对应的DCP帧分辨率。
ERP | TSP | DCP |
3840×1920 | 1920×960 | 1440×1440 |
4096×2048 | 2048×1024 | 1536×1536 |
4320×2160 | 2160×1080 | 1632×1632 |
表3
如表3中所展示,用于ERP、TSP和DCP编码的帧分辨率非常不同。TSP和DCP可使用上文描述的开窗S-PSNR度量与ERP进行比较,其中窗口限定在每一前面的中心周围。举例来说,对于具有定向纵摇90°和横偏0°的默认视口,具有大小120°的窗口由纬度区间[90°-60°,90°+60°]和经度区间[0°-60°、0°+60°]限定。大体来说,对于具有定向纵摇Φ和横偏θ以及窗口大小2Δ的视口,用于计算S-PSNR度量的窗口可如上文描述而限定。在一个说明性实例中,此比较中的窗口大小以10°的步长从90°到180°变动。在现实世界实施方案中,检视者观察到的实际窗口大小将取决于检视者的头部转速和切换延迟,如上所述。对于30个视口的情况,180°窗口大小将与大致45°/秒的转速对应,其为运动模糊效应将取决于显示器特性而影响所体验的质量的速度。此观察也适用于ERP内容的检视,且因此,需要与较大窗口大小的比较来考虑这些对于质量的影响。
以ERP编码作为锚点,且以TSP和DCP编码作为测试,计算BD-速率。对于TSP和DCP,编码位速率和开窗S-PSNR值跨越30个视口求平均。
下表4列举BD-速率结果,作为TSP和DCP的S-PSNR窗口大小的函数。图11是Y分量BD-速率的曲线。对于TSP,针对S-PSNR窗口大小90°存在61.5%的Y分量BD-速率增益,且所述增益随着窗口大小近似线性地减小。TSP展现BD-速率增益高达近似窗口大小170°。对于DCP,BD-速率增益跨越所有窗口大小比TSP低8-12%。DCP具有高达近似窗口大小150°的BD-速率增益。可预期TSP相对于DCP的BD-速率增益,因为TSP的质量滚降比DCP更平滑,且因为当正面相等时DCP具有比TSP多12.5%像素/帧。
表4
图12是示出用于使用本文中所描述的技术处理360度视频数据的过程1200的实例的流程图。在框1202处,过程1200包含获得360度视频数据。360度视频数据包含包括映射到几何形状的面的球面视频数据的表示。举例来说,所述表示可包含视口表示,所述视口表示包含对应于360度场景中的定向的视口。视口可对应于几何形状的前面。在一些实施方案中,几何形状包含截断正方锥(TSP),且表示的球面视频数据映射到TSP的六个面。在一些方面中,几何形状包含立方体几何形状。在一些实施方案中,几何形状包含基于经下取样立方体地图投影(DCP)的几何形状。可使用任何其它合适的几何形状。
在框1204处,过程1200包含确定对应于表示的视口的定向处360度场景的球面表示上的窗口。基于对应于所述表示的几何形状的前面确定窗口。举例来说,前面的视场可用于确定窗口的大小。
在框1206处,过程1200包含确定360度场景的球面表示上的窗口的视口感知质量度量。在一些实施方案中,确定360度场景的球面表示上的窗口的视口感知质量度量包含计算窗口中视频数据的球面信噪比(S-PSNR)。在此类实施方案中,S-PSNR的计算限于窗口中的视频数据来确定窗口的视口感知质量度量。举例来说,过程1200可确定球面上的在窗口内的一组均匀取样点。过程1200可将球面上的点映射到地面实况帧(例如,译码之前的原始视频帧)上的对应点,且还可将球面上的点映射到经译码图片(例如,使用几何形状封装的帧)上的点。过程1200可计算两个位置处(地面实况帧上和经译码图片上)的像素值,且可确定这些像素之间的误差。过程1200可针对球面上的窗口中的每一样本点执行类似步骤,且窗口中所有点的所得误差指示窗口的S-PSNR。
在某些情况下,360度视频数据包含包括映射到几何形状的面的球面视频数据的多个表示。所述多个表示的每一表示包含对应于360度场景中的不同定向的不同视口。映射到几何形状的多个视口表示的实例包含图5D中示出的多个TSP地图。在此些情况下,过程1200可确定360度场景的球面表示上的多个窗口。所述多个窗口中的每一个可基于对应于每一表示(例如,图5D中示出的TSP的正面的FOV)的几何形状的每一前面来确定。在一些实例中,如图7和图8A-图8B中所示,所述多个窗口包含分布在360度场景的球面表示上的所述多个表示的前面中心。在一些方面中,360度场景的球面表示上限定的所述多个窗口重叠,如图9所示。
过程1200可确定360度场景的球面表示上的所述多个窗口的视口感知质量度量,且可随后确定所述多个表示的组合视口感知质量度量。在某些情况下,确定所述多个表示的组合视口感知质量度量可包含对所述多个窗口的所确定的视口感知质量度量求平均。在某些情况下,确定所述多个表示的组合视口感知质量度量可包含从针对所述多个窗口确定的视口感知质量度量中确定中值。
在一些实例中,通过计算窗口的概率加权可观察窗口大小来确定窗口。窗口的概率加权可观察窗口大小是基于对应于所述表示的几何形状的前面以及以下中的至少一或多个:所述窗口和360度视频数据的至少一个其它表示的至少一个其它窗口之间的分隔量、360度视频数据的检视者的所估计头部转速、与360度视频数据的表示之间的切换相关联的切换延迟,或其任何组合。举例来说,如上所述,可基于以下等式确定概率加权可观察窗口大小:window_size=FOV+front_viewport_separation+rotational_speed x switching_delay x 2
在一些实例中,可通过计算装置或设备执行过程1200,所述计算装置或设备例如服务器602、客户端装置604、编码装置104、解码装置112或任何其它计算装置。在某些情况下,计算装置或设备可包含处理器、微处理器、微计算机或经配置以实行过程1200的步骤的装置的其它组件。在一些实例中,计算装置或设备可包含经配置以捕获包含视频帧的视频数据(例如,视频序列)的相机。举例来说,计算装置可包含相机装置,其可或可不包含视频编解码器。作为另一实例,计算装置可包含具有相机的移动装置(例如,比如数码相机、IP相机等相机装置、包含相机的移动电话或平板计算机,或具有相机的其它类型的装置)。在某些情况下,计算装置可包含用于显示图像的显示器。在一些实例中,捕获视频数据的相机或其它捕获装置与计算装置分离,在此情况下计算装置接收所捕获的视频数据。计算装置可进一步包含经配置以传送视频数据的网络接口。网络接口可经配置以传送基于因特网协议(IP)的数据或其它网络数据。
过程1200被示出为逻辑流程图,其操作表示可以在硬件、计算机指令或其组合中实施的一系列操作。在计算机指令的情形下,操作表示存储在一或多个计算机可读存储介质上的计算机可执行指令,这些计算机可执行指令在由一或多个处理器执行时执行所叙述的操作。一般而言,计算机可执行指令包含例程、程序、对象、组件、数据结构以及执行特定功能或实施特定数据类型的类似物。描述操作的顺序并不意图解释为限制,且任何数目的所描述操作可以按任何顺序和/或并行组合以实施所述过程。
此外,过程1200可在以可执行指令配置的一或多个计算机系统的控制下执行,且可被实施为共同地在一或多个处理器上执行的代码(例如,可执行指令、一或多个计算机程序或一或多个应用),通过硬件实施,或其组合。如上文所指出,代码可存储在计算机可读或机器可读存储介质上,例如,呈包括可通过一或多个处理器执行的多个指令的计算机程序的形式。计算机可读或机器可读存储介质可为非暂时性的。
本文所论述的视口感知技术可实施于实例视频编码和解码系统(例如,系统100)中。在一些实例中,系统包含源装置,其提供在稍后时间将由目的地装置解码的经编码视频数据。具体而言,源装置经由计算机可读介质将视频数据提供到目的地装置。源装置和目的地装置可包括各种各样裝置中的任一个,包含台式计算机、笔记本(即,膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智能”电话、所谓的“智能”平板)、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频串流装置或类似者。在一些情况下,源装置和目的地装置可经装备以用于无线通信。
目的地装置可经由计算机可读介质接收待解码的经编码视频数据。计算机可读介质可包括能够将经编码视频数据从源装置移动到目的地装置的任何类型的介质或装置。在一个实例中,计算机可读介质可包括使源装置能够实时将经编码视频数据直接发射到目的地装置的通信介质。经编码视频数据可根据通信标准(例如无线通信协议)调制,且发射到目的地装置。通信介质可包括任何无线或有线通信介质,例如射频(RF)频谱或一或多个物理发射线路。通信介质可形成基于包的网络(例如,局域网、广域网或全球网络,例如因特网)的一部分。通信介质可包含可用于促进从源装置到目的地装置的通信的路由器、交换器、基站或任何其它设备。
在一些实例中,经编码数据可从输出接口输出到存储装置。类似地,经编码数据可通过输入接口从存储装置存取。存储装置可包含各种分布式或本地存取的数据存储介质中的任一个,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器、或用于存储经编码视频数据的任何其它适合的数字存储介质。在另一实例中,存储装置可对应于文件服务器或可存储由源装置产生的经编码视频的另一中间存储装置。目的地装置可经由串流或下载从存储装置存取所存储的视频数据。文件服务器可为能够存储经编码视频数据及将所述经编码视频数据发射到目的地装置的任何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置可通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等),或适合于存取存储在文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置的发射可为串流发射、下载发射或其组合。
本公开的技术不必限于无线应用或设定。所述技术可应用于支持多种多媒体应用中的任一个的视频译码,例如空中电视广播、有线电视发射、卫星电视发射、因特网串流视频发射(例如,HTTP上的动态自适应串流(DASH))、被编码到数据存储介质上的数字视频,存储在数据存储介质上的数字视频的解码,或其它应用。在一些实例中,系统可经配置以支持单向或双向视频发射,从而支持例如视频串流、视频重放、视频广播和/或视频电话等应用。
在一个实例中,源装置包含视频源、视频编码器和输出接口。目的地装置可包含输入接口、视频解码器和显示装置。源装置的视频编码器可经配置以应用本文所公开的技术。在其它实例中,源装置和目的地装置可包含其它组件或布置。举例来说,源装置可从外部视频源(例如,外部相机)接收视频数据。同样,目的地装置可与外部显示装置介接,而非包含集成显示装置。
以上实例系统仅为一个实例。用于并行处理视频数据的技术可由任何数字视频编码及/或解码装置来执行。尽管本公开的技术通常由视频编码装置执行,但是所述技术也可通过视频编码器/解码器(通常被称作“CODEC”)执行。此外,本公开的技术还可由视频预处理器执行。源装置和目的地装置仅为源装置在其中产生经译码视频数据以供发射到目的地装置的此类译码装置的实例。在一些实例中,源装置和目的地装置可以大体上对称的方式操作以使得所述装置中的每一个包含视频编码和解码组件。因此,实例系统可支持视频装置之间的单向或双向视频发射,例如,用于视频串流、视频重放、视频广播或视频电话。
视频源可包含视频捕获装置,例如摄像机、含有先前所捕获视频的视频存档及/或用于从视频内容提供者接收视频的视频馈入接口。作为另一替代方案,视频源可产生基于计算机图形的数据作为源视频,或实况视频、存档视频与计算机产生的视频的组合。在一些情况下,如果视频源为视频相机,那么源装置和目的地装置可形成所谓的相机电话或视频电话。然而,如上文所提及,本公开中所描述的技术一般可适用于视频译码,且可应用于无线和/或有线应用。在每一情况下,可由视频编码器编码所捕获、预先捕获或计算机产生的视频。经编码视频信息可接着由输出接口输出到计算机可读介质上。
如所提到,计算机可读介质可包含瞬时介质,例如无线广播或有线网络发射,或存储介质(即,非暂时性存储介质),例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读介质。在一些实例中,网络服务器(未图示)可从源装置接收经编码视频数据,且例如经由网络发射将经编码视频数据提供到目的地装置。类似地,媒体生产设施(例如,光盘冲压设施)的计算装置可从源装置接收经编码的视频数据且生产含有经编码的视频数据的光盘。因此,在各种实例中,计算机可读介质可理解为包含各种形式的一或多个计算机可读介质。
目的地装置的输入接口从计算机可读介质接收信息。计算机可读介质的信息可包含由视频编码器限定的语法信息,其也由视频解码器使用,且包含描述块和其它经译码单元(例如图片群组(GOP))的特性和/或处理的语法元素。显示装置向用户显示经解码视频数据,且可包括多种显示装置中的任一个,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。已描述本发明的各种实施例。
在图13和图14中分别展示编码装置104和解码装置112的具体细节。图13是示出可实施本公开中描述的技术中的一或多个的实例编码装置104的框图。举例来说,编码装置104可以产生本文中描述的语法结构(例如,VPS、SPS、PPS或其它语法元素的语法结构)。编码装置104可以在视频切片内执行视频块的帧内预测和帧间预测译码。如先前描述,帧内译码至少部分依赖于空间预测来减少或去除给定视频帧或图片内的空间冗余。帧间译码至少部分依赖于时间预测来减少或去除视频序列的邻近或周围帧内的时间冗余。帧内模式(I模式)可指代若干基于空间的压缩模式中的任一个。例如单向预测(P模式)或双向预测(B模式)等帧间模式可指代若干基于时间的压缩模式中的任一个。
编码装置104包含分割单元35、预测处理单元41、滤波器单元63、图片存储器64、求和器50、变换处理单元52、量化单元54以及熵编码单元56。预测处理单元41包含运动估计单元42、运动补偿单元44及帧内预测处理单元46。对于视频块重建,编码装置104还包含逆量化单元58、逆变换处理单元60和求和器62。滤波器单元63既定表示一或多个环路滤波器,例如解块滤波器、自适应环路滤波器(ALF)及样本自适应偏移(SAO)滤波器。尽管在图13中将滤波器单元63展示为环路内滤波器,但在其它配置中,可将滤波器单元63实施为环路后滤波器。后处理装置57可对由编码装置104产生的经编码视频数据执行额外处理。本公开的技术在一些情况下可由编码装置104实施。然而在其它情况下,本公开的技术中的一或多者可由后处理装置57实施。
如图13中所示,编码装置104接收视频数据,且分割单元35将所述数据分割成视频块。所述分割还可包含分割为切片、切片段、平铺片或其它较大单元,以及例如根据LCU和CU的四叉树结构的视频块分割。编码装置104总体上示出对待编码的视频切片内的视频块进行编码的组件。可将切片划分成多个视频块(且可能划分成被称作平铺片的视频块的集合)。预测处理单元41可以基于误差结果(例如,译码速率和失真水平等)为当前视频块选择多个可能的译码模式中的一个,例如,多个帧内预测译码模式中的一或多个帧间预测译码模式中的一个。预测处理单元41可将所得经帧内或帧间译码块提供到求和器50以产生残余块数据,并提供到求和器62以重建经编码的块以用作参考图片。
预测处理单元41内的帧内预测处理单元46可相对于与待译码的当前块在相同帧或切片中的一或多个相邻块执行当前视频块的帧内预测译码,以提供空间压缩。预测处理单元41内的运动估计单元42及运动补偿单元44相对于一或多个参考图片中的一或多个预测块执行当前视频块的帧间预测译码以提供时间压缩。
运动估计单元42可经配置以根据用于视频序列的预定模式来确定用于视频切片的帧间预测模式。预定模式可将序列中的视频切片指定为P切片、B切片或GPB切片。运动估计单元42及运动补偿单元44可高度集成,但出于概念的目的分别示出。由运动估计单元42执行的运动估计是产生估计视频块的运动的运动向量的过程。运动向量例如可指示当前视频帧或图片内的视频块的预测单元(PU)相对于参考图片内的预测块的位移。
预测块是被发现在像素差方面与待译码的视频块的PU密切匹配的块,像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量来确定。在一些实例中,编码装置104可以计算存储于图片存储器64中的参考图片的子整数像素位置的值。举例来说,编码装置104可以内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元42可相对于全像素位置及分数像素位置执行运动搜索并且输出具有分数像素精度的运动向量。
运动估计单元42通过比较帧间译码切片中的视频块的PU的位置与参考图片的预测块的位置来计算所述PU的运动向量。参考图片可以选自第一参考图片列表(列表0)或第二参考图片列表(列表1),其中的每一个识别存储在图片存储器64中的一或多个参考图片。运动估计单元42将所计算的运动向量发送到熵编码单元56和运动补偿单元44。
通过运动补偿单元44执行的运动补偿可以涉及基于通过运动估计(可能执行对子像素精确度的内插)确定的运动向量提取或产生预测块。在接收到当前视频块的PU的运动向量后,运动补偿单元44可在参考图片列表中定位所述运动向量指向的预测块。编码装置104通过从正被译码的当前视频块的像素值减去预测块的像素值从而形成像素差值来形成残余视频块。像素差形成用于所述块的残余数据,并且可包含亮度和色度差分量两者。求和器50表示执行此减法运算的一或多个组件。运动补偿单元44还可产生与视频块和视频切片相关联的语法元素以供解码装置112在对视频切片的视频块进行解码时使用。
作为如上文所描述由运动估计单元42和运动补偿单元44执行的帧间预测的替代方案,帧内预测处理单元46可以对当前块进行帧内预测。特定来说,帧内预测处理单元46可确定用以对当前块进行编码的帧内预测模式。在一些实例中,帧内预测处理单元46可例如在单独编码遍次期间使用各种帧内预测模式编码当前块,且帧内预测处理单元46可从测试模式选择适当的帧内预测模式来使用。举例来说,帧内预测处理单元46可使用速率-失真分析计算各种经测试帧内预测模式的速率-失真值,并在所述经测试模式当中选择具有最佳速率-失真特性的帧内预测模式。速率失真分析一般确定经编码块与经编码以产生所述经编码块的原始的未经编码块之间的失真(或误差)的量,以及用于产生经编码块的位速率(也就是说,位数目)。帧内预测处理单元46可以从用于各种经编码块的失真及速率计算比率,以确定哪种帧内预测模式对于所述块来说展现最佳速率-失真值。
在任何情况下,在选择用于块的帧内预测模式后,帧内预测处理单元46可将指示用于块的所选帧内预测模式的信息提供到熵编码单元56。熵编码单元56可对指示所选帧内预测模式的信息进行编码。编码装置104可以在所发射的位流配置中包含用于各种块的编码上下文的数据定义,以及最可能帧内预测模式、帧内预测模式索引表和经修改帧内预测模式索引表的指示以供每种上下文使用。位流配置数据可包含多个帧内预测模式索引表和多个经修改帧内预测模式索引表(也被称作码字映射表)。
在预测处理单元41经由帧间预测或帧内预测产生当前视频块的预测块之后,编码装置104通过从当前视频块减去预测块来形成残余视频块。残余块中的残余视频数据可包含于一或多个TU中,并可应用到变换处理单元52。变换处理单元52使用变换(例如,离散余弦变换(DCT)或在概念上类似的变换)将残余视频数据变换成残余变换系数。变换处理单元52可将残余视频数据从像素值域转换到变换域,例如频域。
变换处理单元52可将所得变换系数发送到量化单元54。量化单元54对变换系数进行量化以进一步降低位速率。量化过程可减小与系数中的一些或全部相关联的位深度。可以通过调节量化参数来修改量化程度。在一些实例中,量化单元54可接着对包含经量化变换系数的矩阵执行扫描。替代地,熵编码单元56可执行所述扫描。
在量化之后,熵编码单元56对经量化的变换系数进行熵编码。举例来说,熵编码单元56可以执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码技术。在由熵编码单元56进行熵编码之后,经编码位流可发射到解码装置112,或经存档以供稍后发射或由解码装置112检索。熵编码单元56还可对正进行译码的当前视频切片的运动向量和其它语法元素进行熵编码。
逆量化单元58和逆变换处理单元60分别应用逆量化和逆变换来重建像素域中的残余块,以供稍后用作参考图片的参考块。运动补偿单元44可通过将残余块添加到在参考图片列表内的参考图片中的一个的预测块来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重建的残余块以计算子整数像素值用于运动估计。求和器62将经重建的残余块添加到由运动补偿单元44产生的经运动补偿的预测块,以产生参考块以用于存储于图片存储器64中。参考块可由运动估计单元42及运动补偿单元44用作参考块以对后续视频帧或图片中的块进行帧间预测。
以此方式,图13的编码装置104表示经配置以导出LIC参数、适应性地确定模板的大小和/或适应性地选择权重的视频编码器的实例。举例来说,编码装置104可导出LIC参数、适应性地确定模板的大小和/或适应性地选择权重集合,如上文所描述。举例来说,编码装置104可以执行本文中所描述的技术中的任一个,包含上文相对于图12所描述的过程。在一些情况下,本公开的技术中的一些也可以通过后处理装置57实施。
图14是示出实例解码装置112的框图。解码装置112包含熵解码单元80、预测处理单元81、逆量化单元86、逆变换处理单元88、求和器90、滤波器单元91和图片存储器92。预测处理单元81包含运动补偿单元82和帧内预测处理单元84。在一些实例中,解码装置112可执行与相对于来自图13的编码装置104所描述的编码遍次大体上互逆的解码遍次。
在解码过程期间,解码装置112接收表示经编码视频切片的视频块和由编码装置104发送的相关联语法元素的经编码视频位流。在一些实施例中,解码装置112可以从编码装置104接收经编码视频位流。在一些实施例中,解码装置112可以从网络实体79接收经编码视频位流,所述网络实体例如服务器、媒体感知网络元件(MANE)、视频编辑器/拼接器或经配置以实施上文所描述的技术中的一或多个的其它此类装置。网络实体79可包含或可不包含编码装置104。本公开中描述的技术中的一些可以在网络实体79将经编码视频位流发射到解码装置112之前由网络实体79实施。在一些视频解码系统中,网络实体79和解码装置112可为单独的装置的部分,而在其它情况下,关于网络实体79描述的功能性可由包括解码装置112的同一装置执行。
解码装置112的熵解码单元80对位流进行熵解码以产生经量化系数、运动向量和其它语法元素。熵解码单元80将运动向量及其它语法元素转发到预测处理单元81。解码装置112可在视频切片层级和/或视频块层级接收语法元素。熵解码单元80可以处理和解析在例如VPS、SPS和PPS等一或多个参数集中的固定长度语法元素和可变长度语法元素这两者。
当视频切片经译码为经帧内译码(I)切片时,预测处理单元81的帧内预测处理单元84可基于传信的帧内预测模式及来自当前帧或图片的先前经解码块的数据产生用于当前视频切片的视频块的预测数据。当视频帧译码为经帧间译码(即,B、P或GPB)切片时,预测处理单元81的运动补偿单元82基于运动向量和从熵解码单元80接收的其它语法元素产生用于当前视频切片的视频块的预测块。所述预测块可从参考图片列表内的参考图片中的一个产生。解码装置112可基于存储在图片存储器92中的参考图片使用默认建构技术建构参考帧列表,即列表0和列表1。
运动补偿单元82通过解析运动向量和其它语法元素确定用于当前视频切片的视频块的预测信息,并且使用所述预测信息产生用于正解码的当前视频块的预测块。举例来说,运动补偿单元82可使用参数集中的一或多个语法元素来确定用于对视频切片的视频块进行译码的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类型(例如,B切片、P切片或GPB切片)、用于切片的一或多个参考图片列表的构建信息、切片的每个经帧间编码视频块的运动向量、切片的每个经帧间译码视频块的帧间预测状态和用于对当前视频切片中的视频块进行解码的其它信息。
运动补偿单元82还可基于内插滤波器执行内插。运动补偿单元82可使用如由编码装置104在视频块的编码期间所使用的内插滤波器来计算参考块的子整数像素的内插值。在此情况下,运动补偿单元82可从所接收的语法元素确定编码装置104所使用的内插滤波器,且可使用所述内插滤波器来产生预测块。
逆量化单元86对在位流中提供且通过熵解码单元80解码的经量化变换系数进行逆量化,或解量化。逆量化过程可以包含将通过编码装置104计算出的量化参数用于视频切片中的每一视频块以确定量化的程度,并且同样确定应该应用的逆量化的程度。逆变换处理单元88将逆变换(例如,逆DCT或其它合适的逆变换)、逆整数变换或概念上相似的逆变换过程应用到所述变换系数以便产生像素域中的残余块。
在运动补偿单元82基于运动向量和其它语法元素产生用于当前视频块的预测块之后,解码装置112通过将来自逆变换处理单元88的残余块与由运动补偿单元82产生的对应预测块求和来形成经解码视频块。求和器90表示执行此求和运算的一或多个组件。必要时,还可使用环路滤波器(在译码环路中或在译码环路之后)来使像素过渡平滑或者以其它方式改进视频质量。滤波器单元91既定表示一或多个环路滤波器,例如去块滤波器、自适应环路滤波器(ALF)和样本自适应偏移(SAO)滤波器。尽管在图14中将滤波器单元91展示为环路内滤波器,但在其它配置中,可将滤波器单元91实施为环路后滤波器。随后将给定帧或图片中的经解码视频块存储于图片存储器92中,所述图片存储器存储用于随后运动补偿的参考图片。图片存储器92还存储经解码视频以供稍后在显示装置(例如,图1中所示的视频目的地装置122)上呈现。
以此方式,图14的解码装置112表示经配置以导出LIC参数、适应性地确定模板的大小和/或适应性地选择权重的视频解码器的实例。举例来说,解码装置112可导出LIC参数、适应性地确定模板的大小和/或适应性地选择权重集合,如上文所描述。举例来说,解码装置112可以执行本文中所描述的技术中的任一个,包含上文相对于图12所描述的过程。
在以上描述中,参考具体实施例描述应用的方面,但是所属领域的技术人员将认识到本发明不限于此。因此,虽然已经在本文中详细地描述了应用的说明性实施例,但是应理解,本发明概念可以其它方式不同地体现和采用,并且除了现有技术所限制的之外,所附权利要求书意图解释为包含此类变化。上文描述的本发明的各种特征和方面可以单独或共同地使用。另外,实施例可以在本文中描述的那些之外的任何数目的环境和应用中利用,而不脱离本说明书的广泛的精神和范围。应将本说明书和图式相应地视为说明性的而非限制性的。出于说明的目的,方法是以特定次序描述的。应了解,在替代实施例中,方法可以与所描述的次序不同的次序执行。
在组件被描述为“经配置以”执行某些操作的情况下,可例如通过设计电子电路或其它硬件以执行所述操作、通过编程可编程电子电路(例如,微处理器或其它适合电子电路)以执行所述操作或其任何组合来实现此类配置。
结合本文中所公开的实施例描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件、固件或其组合。为清晰地说明硬件与软件的此可互换性,上文已大体就各种说明性组件、块、模块、电路和步骤的功能性加以描述。此类功能性是实施为硬件还是软件取决于特定应用及强加于整个系统的设计约束。熟练的技术人员可针对每一特定应用以不同方式来实施所描述的功能性,但这样的实施决策不应被解释为会引起脱离本发明的范围。
本文中描述的技术也可以在电子硬件、计算机软件、固件或其任何组合中实施。此类技术可实施于多种装置中的任一个中,例如通用计算机、无线通信装置手持机或集成电路装置,其具有包含在无线通信装置手持机和其它装置中的应用的多种用途。描述为模块或组件的任何特征可一起实施于集成逻辑装置中或单独地实施为离散但可互操作的逻辑装置。如果在软件中实施,那么所述技术可至少部分地由包括程序代码的计算机可读数据存储介质来实现,所述程序代码包含在被执行时执行上文所描述的方法中的一或多个的指令。计算机可读数据存储介质可形成计算机程序产品的一部分,所述计算机程序产品可包含封装材料。计算机可读介质可包括存储器或数据存储介质,例如,随机存取存储器(RAM)(例如,同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器、磁性或光学数据存储介质等等。另外或替代地,所述技术可至少部分地由计算机可读通信介质来实现,所述计算机可读通信介质以指令或数据结构的形式携载或传送程序代码且可由计算机存取、读取和/或执行(例如,传播的信号或波)。
程序代码可由处理器执行,所述处理器可包含一或多个处理器,例如,一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路。此处理器可经配置以执行本公开中所描述的技术中的任一个。通用处理器可为微处理器;但在替代方案中,处理器可为任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器的组合、一或多个微处理器结合DSP核心,或任何其它此类配置。因此,如本文中所使用的术语“处理器”可指代前述结构中的任一个、上述结构的任何组合,或适合于实施本文中所描述的技术的任何其它结构或设备。另外,在一些方面中,可将本文中所描述的功能性提供于经配置用于编码及解码的专用软件模块或硬件模块内,或并入在组合的视频编码器-解码器(CODEC)中。
Claims (30)
1.一种处理360度视频数据的方法,所述方法包括:
获得所述360度视频数据,所述360度视频数据包含包括映射到几何形状的面的球面视频数据的表示,其中所述表示包含对应于360度场景中的定向的视口;
确定在对应于所述表示的所述视口的所述定向处所述360度场景的球面表示上的窗口,所述窗口基于对应于所述表示的所述几何形状的前面而确定;以及
确定所述360度场景的所述球面表示上的所述窗口的视口感知质量度量。
2.根据权利要求1所述的方法,其中所述360度视频数据包含包括映射到所述几何形状的面的球面视频数据的多个表示,其中所述多个表示的每一表示包含对应于360度场景中的不同定向的不同视口,且所述方法进一步包括:
确定所述360度场景的所述球面表示上的多个窗口,所述多个窗口中的每一个基于对应于每一表示的所述几何形状的每一前面而确定;
确定所述360度场景的所述球面表示上的所述多个窗口的视口感知质量度量;以及
确定所述多个表示的组合视口感知质量度量。
3.根据权利要求2所述的方法,其中确定所述多个表示的所述组合视口感知质量度量包含将所述多个窗口的所确定的视口感知质量度量求平均。
4.根据权利要求2所述的方法,其中所述多个窗口包含分布在所述360度场景的所述球面表示上的所述多个表示的前面中心。
5.根据权利要求2所述的方法,其中所述360度场景的所述球面表示上确定的所述多个窗口重叠。
6.根据权利要求1所述的方法,其中确定所述360度场景的所述球面表示上的所述窗口的所述视口感知质量度量包含计算所述窗口中视频数据的球面信噪比S-PSNR。
7.根据权利要求6所述的方法,其中所述S-PSNR的计算限于所述窗口中的所述视频数据来确定所述窗口的所述视口感知质量度量。
8.根据权利要求1所述的方法,其中所述几何形状包含截断正方锥TSP,且其中所述表示的所述球面视频数据映射到所述TSP的六个面。
9.根据权利要求1所述的方法,其中通过计算所述窗口的概率加权的可观察窗口大小来确定所述窗口,所述窗口的所述概率加权的可观察窗口大小基于对应于所述表示的所述几何形状的所述前面以及以下中的至少一或多个:所述窗口和所述360度视频数据的至少一个其它表示的至少一个其它窗口之间的分隔量、所述360度视频数据的检视者的所估计头部转速,或与所述360度视频数据的表示之间的切换相关联的切换延迟。
10.一种用于处理360度视频数据的设备,其包括:
存储器,其经配置以存储所述360度视频数据;以及
处理器,其经配置以:
获得所述360度视频数据,所述360度视频数据包含包括映射到几何形状的面的球面视频数据的表示,其中所述表示包含对应于360度场景中的定向的视口;
确定在对应于所述表示的所述视口的所述定向处所述360度场景的球面表示上的窗口,所述窗口基于对应于所述表示的所述几何形状的前面而确定;以及
确定所述360度场景的所述球面表示上的所述窗口的视口感知质量度量。
11.根据权利要求10所述的设备,其中所述360度视频数据包含包括映射到所述几何形状的面的球面视频数据的多个表示,其中所述多个表示的每一表示包含对应于360度场景中的不同定向的不同视口,且其中所述处理器进一步经配置以:
确定所述360度场景的所述球面表示上的多个窗口,所述多个窗口中的每一个基于对应于每一表示的所述几何形状的每一前面而确定;
确定所述360度场景的所述球面表示上的所述多个窗口的视口感知质量度量;以及
确定所述多个表示的组合视口感知质量度量。
12.根据权利要求11所述的设备,其中确定所述多个表示的所述组合视口感知质量度量包含将所述多个窗口的所确定的视口感知质量度量求平均。
13.根据权利要求11所述的设备,其中所述多个窗口包含分布在所述360度场景的所述球面表示上的所述多个表示的前面中心。
14.根据权利要求11所述的设备,其中所述360度场景的所述球面表示上确定的所述多个窗口重叠。
15.根据权利要求10所述的设备,其中确定所述360度场景的所述球面表示上的所述窗口的所述视口感知质量度量包含计算所述窗口中视频数据的球面信噪比S-PSNR。
16.根据权利要求15所述的设备,其中所述S-PSNR的计算限于所述窗口中的所述视频数据来确定所述窗口的所述视口感知质量度量。
17.根据权利要求10所述的设备,其中所述几何形状包含截断正方锥TSP,且其中所述表示的所述球面视频数据映射到所述TSP的六个面。
18.根据权利要求10所述的设备,其中通过计算所述窗口的概率加权的可观察窗口大小来确定所述窗口,所述窗口的所述概率加权的可观察窗口大小基于对应于所述表示的所述几何形状的所述前面以及以下中的至少一或多个:所述窗口和所述360度视频数据的至少一个其它表示的至少一个其它窗口之间的分隔量、所述360度视频数据的检视者的所估计头部转速,或与所述360度视频数据的表示之间的切换相关联的切换延迟。
19.根据权利要求10所述的设备,其进一步包括:
显示器,其用于显示所述视频数据。
20.根据权利要求10所述的设备,其中所述设备包括具有用于俘获图片的相机的移动装置。
21.一种上面存储有指令的非暂时性计算机可读介质,所述指令在由一或多个处理器执行时使得所述一或多个处理器:
获得360度视频数据,所述360度视频数据包含包括映射到几何形状的面的球面视频数据的表示,其中所述表示包含对应于360度场景中的定向的视口;
确定在对应于所述表示的所述视口的所述定向处所述360度场景的球面表示上的窗口,所述窗口基于对应于所述表示的所述几何形状的前面而确定;以及
确定所述360度场景的所述球面表示上的所述窗口的视口感知质量度量。
22.根据权利要求21所述的非暂时性计算机可读介质,其中所述360度视频数据包含包括映射到所述几何形状的面的球面视频数据的多个表示,其中所述多个表示的每一表示包含对应于360度场景中的不同定向的不同视口,且所述非暂时性计算机可读介质进一步包括指令,所述指令在由所述一或多个处理器执行时使得所述一或多个处理器:
确定所述360度场景的所述球面表示上的多个窗口,所述多个窗口中的每一个基于对应于每一表示的所述几何形状的每一前面而确定;
确定所述360度场景的所述球面表示上的所述多个窗口的视口感知质量度量;以及
确定所述多个表示的组合视口感知质量度量。
23.根据权利要求22所述的非暂时性计算机可读介质,其中确定所述多个表示的所述组合视口感知质量度量包含将所述多个窗口的所确定的视口感知质量度量求平均。
24.根据权利要求22所述的非暂时性计算机可读介质,其中所述多个窗口包含分布在所述360度场景的所述球面表示上的所述多个表示的前面中心。
25.根据权利要求22所述的非暂时性计算机可读介质,其中所述360度场景的所述球面表示上确定的所述多个窗口重叠。
26.根据权利要求21所述的非暂时性计算机可读介质,其中确定所述360度场景的所述球面表示上的所述窗口的所述视口感知质量度量包含计算所述窗口中视频数据的球面信噪比S-PSNR。
27.根据权利要求26所述的非暂时性计算机可读介质,其中所述S-PSNR的计算限于所述窗口中的所述视频数据来确定所述窗口的所述视口感知质量度量。
28.根据权利要求21所述的非暂时性计算机可读介质,其中所述几何形状包含截断正方锥TSP,且其中所述表示的所述球面视频数据映射到所述TSP的六个面。
29.根据权利要求21所述的非暂时性计算机可读介质,其中通过计算所述窗口的概率加权的可观察窗口大小来确定所述窗口,所述窗口的所述概率加权的可观察窗口大小基于对应于所述表示的所述几何形状的所述前面以及以下中的至少一或多个:所述窗口和所述360度视频数据的至少一个其它表示的至少一个其它窗口之间的分隔量、所述360度视频数据的检视者的所估计头部转速,或与所述360度视频数据的表示之间的切换相关联的切换延迟。
30.一种用于处理360度视频数据的设备,其包括:
用于获得所述360度视频数据的装置,所述360度视频数据包含包括映射到几何形状的面的球面视频数据的表示,其中所述表示包含对应于360度场景中的定向的视口;
用于确定在对应于所述表示的所述视口的所述定向处所述360度场景的球面表示上的窗口的装置,所述窗口基于对应于所述表示的所述几何形状的前面而确定;以及
用于确定所述360度场景的所述球面表示上的所述窗口的视口感知质量度量的装置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662434305P | 2016-12-14 | 2016-12-14 | |
US62/434,305 | 2016-12-14 | ||
US15/833,786 US10620441B2 (en) | 2016-12-14 | 2017-12-06 | Viewport-aware quality metric for 360-degree video |
US15/833,786 | 2017-12-06 | ||
PCT/US2017/065099 WO2018111681A1 (en) | 2016-12-14 | 2017-12-07 | Viewport-aware quality metric for 360-degree video |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110036636A true CN110036636A (zh) | 2019-07-19 |
Family
ID=62489248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780075009.0A Pending CN110036636A (zh) | 2016-12-14 | 2017-12-07 | 用于360度视频的视口感知质量度量 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10620441B2 (zh) |
EP (1) | EP3556095A1 (zh) |
CN (1) | CN110036636A (zh) |
WO (1) | WO2018111681A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111294648A (zh) * | 2020-02-20 | 2020-06-16 | 成都纵横自动化技术股份有限公司 | 一种无人机空地视频传输方法 |
CN112312127A (zh) * | 2020-10-30 | 2021-02-02 | 中移(杭州)信息技术有限公司 | 成像检测方法、装置、电子设备、系统及存储介质 |
CN113163184A (zh) * | 2021-03-25 | 2021-07-23 | 复旦大学 | 一种面向vr自适应传输的投影算法 |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018066991A1 (ko) | 2016-10-04 | 2018-04-12 | 김기백 | 영상 데이터 부호화/복호화 방법 및 장치 |
US20190238888A1 (en) * | 2017-07-17 | 2019-08-01 | Ki Baek Kim | Image data encoding/decoding method and apparatus |
KR102598082B1 (ko) * | 2016-10-28 | 2023-11-03 | 삼성전자주식회사 | 영상 표시 장치, 모바일 장치 및 그 동작방법 |
EP3315907A1 (de) * | 2016-10-27 | 2018-05-02 | Leica Geosystems AG | Verfahren zur visuellen darstellung von scandaten |
US10999602B2 (en) | 2016-12-23 | 2021-05-04 | Apple Inc. | Sphere projected motion estimation/compensation and mode decision |
US11259046B2 (en) | 2017-02-15 | 2022-02-22 | Apple Inc. | Processing of equirectangular object data to compensate for distortion by spherical projections |
US10924747B2 (en) | 2017-02-27 | 2021-02-16 | Apple Inc. | Video coding techniques for multi-view video |
US10979663B2 (en) * | 2017-03-30 | 2021-04-13 | Yerba Buena Vr, Inc. | Methods and apparatuses for image processing to optimize image resolution and for optimizing video streaming bandwidth for VR videos |
FR3066672B1 (fr) * | 2017-05-19 | 2020-05-22 | Sagemcom Broadband Sas | Procede de communication d'une video immersive |
WO2018221211A1 (ja) * | 2017-05-30 | 2018-12-06 | ソニー株式会社 | 画像処理装置および方法、ファイル生成装置および方法、並びにプログラム |
US11093752B2 (en) | 2017-06-02 | 2021-08-17 | Apple Inc. | Object tracking in multi-view video |
US11272160B2 (en) * | 2017-06-15 | 2022-03-08 | Lenovo (Singapore) Pte. Ltd. | Tracking a point of interest in a panoramic video |
US10754242B2 (en) | 2017-06-30 | 2020-08-25 | Apple Inc. | Adaptive resolution and projection format in multi-direction video |
US20190005709A1 (en) * | 2017-06-30 | 2019-01-03 | Apple Inc. | Techniques for Correction of Visual Artifacts in Multi-View Images |
KR102374404B1 (ko) * | 2017-07-25 | 2022-03-15 | 삼성전자주식회사 | 콘텐트를 제공하기 위한 디바이스 및 방법 |
EP3721417A1 (en) | 2017-12-22 | 2020-10-14 | Huawei Technologies Co., Ltd. | Vr 360 video for remote end users |
EP3741124A1 (en) * | 2018-01-16 | 2020-11-25 | VID SCALE, Inc. | Adaptive frame packing for 360-degree video coding |
US10715832B2 (en) * | 2018-03-16 | 2020-07-14 | Mediatek Inc. | Method and apparatus of block partition for VR360 video coding |
US11145108B2 (en) * | 2018-03-21 | 2021-10-12 | Nvidia Corporation | Uniform density cube map rendering for spherical projections |
CN111868667A (zh) * | 2018-03-26 | 2020-10-30 | 索尼公司 | 信息处理装置、信息处理方法和程序 |
CN110349226B (zh) * | 2018-04-01 | 2021-06-01 | 浙江大学 | 一种全景图像处理方法及装置 |
US10432970B1 (en) * | 2018-06-14 | 2019-10-01 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for encoding 360° immersive video |
US10567780B2 (en) | 2018-06-14 | 2020-02-18 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for encoding 360° immersive video |
US10623736B2 (en) | 2018-06-14 | 2020-04-14 | Telefonaktiebolaget Lm Ericsson (Publ) | Tile selection and bandwidth optimization for providing 360° immersive video |
US10419738B1 (en) | 2018-06-14 | 2019-09-17 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for providing 360° immersive video based on gaze vector information |
US20190385372A1 (en) * | 2018-06-15 | 2019-12-19 | Microsoft Technology Licensing, Llc | Positioning a virtual reality passthrough region at a known distance |
EP3820147A4 (en) * | 2018-07-06 | 2022-07-20 | Sony Group Corporation | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND PROGRAM |
US10841662B2 (en) | 2018-07-27 | 2020-11-17 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for inserting advertisement content in 360° immersive video |
WO2020068284A1 (en) * | 2018-09-26 | 2020-04-02 | Futurewei Technologies, Inc. | Virtual reality (vr) viewpoint grouping |
US10440416B1 (en) | 2018-10-01 | 2019-10-08 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for providing quality control in 360° immersive video during pause |
US10757389B2 (en) | 2018-10-01 | 2020-08-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Client optimization for providing quality control in 360° immersive video during pause |
WO2020071724A1 (en) * | 2018-10-04 | 2020-04-09 | Lg Electronics Inc. | An apparatus for transmitting a video, a method for transmitting a video, an apparatus for receiving a video, and a method for receiving a video |
US11047691B2 (en) * | 2018-10-31 | 2021-06-29 | Dell Products, L.P. | Simultaneous localization and mapping (SLAM) compensation for gesture recognition in virtual, augmented, and mixed reality (xR) applications |
US11240525B2 (en) * | 2018-11-08 | 2022-02-01 | Dell Products, L.P. | Systems and methods for video encoding acceleration in virtual, augmented, and mixed reality (xR) applications |
CN114979750A (zh) * | 2019-01-08 | 2022-08-30 | 诺基亚技术有限公司 | 用于虚拟现实的方法、装置和计算机可读介质 |
US10936055B2 (en) * | 2019-01-24 | 2021-03-02 | Dell Products, L.P. | Encoding content for virtual, augmented, and mixed reality (xR) applications in connectivity-constrained environments |
US20200241296A1 (en) * | 2019-01-29 | 2020-07-30 | New York University | Synchronized Shared Mixed Reality for Co-Located Participants, Apparatus, System and Method |
US11909983B2 (en) | 2019-03-14 | 2024-02-20 | Nokia Technologies Oy | Apparatus, a method and a computer program for video coding and decoding |
US10970519B2 (en) | 2019-04-16 | 2021-04-06 | At&T Intellectual Property I, L.P. | Validating objects in volumetric video presentations |
US11012675B2 (en) | 2019-04-16 | 2021-05-18 | At&T Intellectual Property I, L.P. | Automatic selection of viewpoint characteristics and trajectories in volumetric video presentations |
US11074697B2 (en) | 2019-04-16 | 2021-07-27 | At&T Intellectual Property I, L.P. | Selecting viewpoints for rendering in volumetric video presentations |
US11153492B2 (en) | 2019-04-16 | 2021-10-19 | At&T Intellectual Property I, L.P. | Selecting spectator viewpoints in volumetric video presentations of live events |
US11194438B2 (en) | 2019-05-09 | 2021-12-07 | Microsoft Technology Licensing, Llc | Capture indicator for a virtual world |
EP3739880A1 (en) * | 2019-05-14 | 2020-11-18 | Axis AB | Method, device and computer program product for encoding a distorted image frame |
US11178374B2 (en) | 2019-05-31 | 2021-11-16 | Adobe Inc. | Dynamically rendering 360-degree videos using view-specific-filter parameters |
US11481026B2 (en) * | 2019-08-22 | 2022-10-25 | Samsung Electronics Co., Ltd. | Immersive device and method for streaming of immersive media |
US20230026014A1 (en) * | 2019-12-24 | 2023-01-26 | Koninklijke Kpn N.V. | Video processing device and manifest file for video streaming |
US20220368957A1 (en) * | 2020-02-29 | 2022-11-17 | Ohmi Digital Fabrications Co., Ltd. | Moving image distribution method, moving image reproduction method, moving image distribution apparatus, and distribution data structure |
WO2021198554A1 (en) * | 2020-04-03 | 2021-10-07 | Nokia Technologies Oy | A method, an apparatus and a computer program product for video encoding and video decoding |
US20210349308A1 (en) * | 2020-05-05 | 2021-11-11 | Szu Wen FAN | System and method for video processing using a virtual reality device |
EP4189964A1 (en) * | 2020-08-03 | 2023-06-07 | Dolby Laboratories Licensing Corporation | Supporting view direction based random access of bitstream |
EP4064691A1 (en) * | 2021-03-23 | 2022-09-28 | Ricoh Company, Ltd. | Communication management device, image communication system, communication management method, and carrier means |
CN113360378A (zh) * | 2021-06-04 | 2021-09-07 | 北京房江湖科技有限公司 | 一种用于生成vr场景的应用程序的回归测试方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103139580A (zh) * | 2011-11-29 | 2013-06-05 | 长春理工大学 | 一种三维全景空间立体图像生成方法 |
US20140359510A1 (en) * | 2012-10-29 | 2014-12-04 | Google Inc. | Interactive Digital Map on a Portable Device |
CN104272729A (zh) * | 2012-05-02 | 2015-01-07 | 皇家飞利浦有限公司 | 用于处理3d视频的质量度量 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015186002A2 (en) * | 2014-06-03 | 2015-12-10 | Mobileye Vision Technologies Ltd. | Systems and methods for detecting an object |
US10096130B2 (en) * | 2015-09-22 | 2018-10-09 | Facebook, Inc. | Systems and methods for content streaming |
US20180098131A1 (en) * | 2016-09-30 | 2018-04-05 | Avago Technologies General Ip (Singapore) Pte. Ltd. | Apparatus and methods for adaptive bit-rate streaming of 360 video |
US10595069B2 (en) * | 2016-12-05 | 2020-03-17 | Adobe Inc. | Prioritizing tile-based virtual reality video streaming using adaptive rate allocation |
EP3334164B1 (en) * | 2016-12-09 | 2019-08-21 | Nokia Technologies Oy | A method and an apparatus and a computer program product for video encoding and decoding |
-
2017
- 2017-12-06 US US15/833,786 patent/US10620441B2/en active Active
- 2017-12-07 CN CN201780075009.0A patent/CN110036636A/zh active Pending
- 2017-12-07 EP EP17828805.6A patent/EP3556095A1/en not_active Withdrawn
- 2017-12-07 WO PCT/US2017/065099 patent/WO2018111681A1/en unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103139580A (zh) * | 2011-11-29 | 2013-06-05 | 长春理工大学 | 一种三维全景空间立体图像生成方法 |
CN104272729A (zh) * | 2012-05-02 | 2015-01-07 | 皇家飞利浦有限公司 | 用于处理3d视频的质量度量 |
US20140359510A1 (en) * | 2012-10-29 | 2014-12-04 | Google Inc. | Interactive Digital Map on a Portable Device |
Non-Patent Citations (2)
Title |
---|
A. AMINLOU, K. KAMMACHI SREEDHAR, A.: "AHG8: Testing methodology for viewport-dependent encoding and streaming", 《URL:HTTP://PHENIX.INT-EVRY.FR/JVET/》 * |
GEERT VAN DER AUWERA, MUHAMMED: "AHG8: Truncated Square Pyramid Projection (TSP) For 360 Video", 《URL:HTTP://PHENIX.INT-EVRY.FR/JVET/DOC_END_USER/CURRENT_DOCUMENT.PHP?ID=2767》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111294648A (zh) * | 2020-02-20 | 2020-06-16 | 成都纵横自动化技术股份有限公司 | 一种无人机空地视频传输方法 |
CN112312127A (zh) * | 2020-10-30 | 2021-02-02 | 中移(杭州)信息技术有限公司 | 成像检测方法、装置、电子设备、系统及存储介质 |
CN112312127B (zh) * | 2020-10-30 | 2023-07-21 | 中移(杭州)信息技术有限公司 | 成像检测方法、装置、电子设备、系统及存储介质 |
CN113163184A (zh) * | 2021-03-25 | 2021-07-23 | 复旦大学 | 一种面向vr自适应传输的投影算法 |
Also Published As
Publication number | Publication date |
---|---|
US20180164593A1 (en) | 2018-06-14 |
EP3556095A1 (en) | 2019-10-23 |
US10620441B2 (en) | 2020-04-14 |
WO2018111681A1 (en) | 2018-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110036636A (zh) | 用于360度视频的视口感知质量度量 | |
KR102204178B1 (ko) | 관심 영역들의 시그널링의 시스템들 및 방법들 | |
US10839480B2 (en) | Sphere equator projection for efficient compression of 360-degree video | |
US10917564B2 (en) | Systems and methods of generating and processing files for partial decoding and most interested regions | |
US10915986B2 (en) | Adaptive perturbed cube map projection | |
KR102373921B1 (ko) | 360 도 비디오에 대한 렌즈 왜곡 보정을 갖는 어안 렌더링 | |
US10904531B2 (en) | Adaptive parameters for coding of 360-degree video | |
CN109076239B (zh) | 虚拟实境中的圆形鱼眼视频 | |
CN110431849A (zh) | 包含用于视频译码的子图片位流的视频内容的信令传输 | |
CN110168600A (zh) | 调整360度视频的截顶正方形棱锥投影的视场 | |
CN110419219A (zh) | 用于视频编码和解码的装置、方法和计算机程序 | |
CN111819855B (zh) | 视频码流中的取消标志指示 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20220311 |
|
AD01 | Patent right deemed abandoned |