CN109792490B - 用于流图像压缩的球面视频的改进的伪圆柱映射 - Google Patents

用于流图像压缩的球面视频的改进的伪圆柱映射 Download PDF

Info

Publication number
CN109792490B
CN109792490B CN201880000751.XA CN201880000751A CN109792490B CN 109792490 B CN109792490 B CN 109792490B CN 201880000751 A CN201880000751 A CN 201880000751A CN 109792490 B CN109792490 B CN 109792490B
Authority
CN
China
Prior art keywords
image
pseudo
pixels
pixel
cylindrical projection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880000751.XA
Other languages
English (en)
Other versions
CN109792490A (zh
Inventor
岑德伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hong Kong Applied Science and Technology Research Institute ASTRI
Original Assignee
Hong Kong Applied Science and Technology Research Institute ASTRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/002,165 external-priority patent/US10735765B2/en
Application filed by Hong Kong Applied Science and Technology Research Institute ASTRI filed Critical Hong Kong Applied Science and Technology Research Institute ASTRI
Publication of CN109792490A publication Critical patent/CN109792490A/zh
Application granted granted Critical
Publication of CN109792490B publication Critical patent/CN109792490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

压缩全景视频流。在球形输入图像上执行正弦投影,以生成伪圆柱投影图像。将图像的左下区域和右下区域切割并移动到伪圆柱形投影图像周围的矩形边界框上角。这些上角是没有图像像素的、默认暗像素的无效区域。底部三分之一行的、包含移动区域的图像像素被删除,图像被压缩达33%。移动区域与伪圆柱投影图像之间的接合区域里的默认暗像素被线性内插,以在剩余的先前无效区域上提供像素值的逐渐变化,从而防止由于像素值的突变而导致的编码伪影。功能可以使用查找表来实现。使用多分辨率映射和自适应视图流,可以对非焦点图像区域进行降采样以进行额外压缩。

Description

用于流图像压缩的球面视频的改进的伪圆柱映射
技术领域
本发明涉及全景成像,更具体地涉及全景图像的压缩。
背景技术
在典型的虚拟现实(VR)应用中,要拍摄360度全景图像或视频。佩戴头戴式显示器(HMD)等特殊目镜的用户可以主动选择和改变其视角以在360度全景空间中获得身临其境的体验。随着VR相机技术的改进和小型化,各种有趣和实用的应用成为可能。
高分辨率相机用于拍摄全景图像。这需要存储较多像素并传输这些高分辨率全景图像。已知有各种编码方法来压缩这些全景图像。诸如立方体贴图、可调式区间块投影(adjusting tile projection)和伪圆柱投影的编码方法是已知的。
图1A-1C显示全景相机。图1A显示现有技术的VR环形相机。环形相机14有多个安置在环上的相机17。相机17的这种布置能拍摄360度全景。当相机17是摄像机时,可以拍摄全景视频。Google Jump是VR环形相机的一个示例。
在图1B,图1A的环形相机是一个环的高分辨率(HR)相机17,其产生HR图像18,是全景圆中的每个小弧。HR图像18彼此重叠,两个HR图像18在拼接区域19的细节以某种方式合并。但是,由于环形相机的相机17布置在一个二维环上,因此可能在HR图像18的顶部和底部发生一些图像损失或失真。
图1C显示一个球形相机。球形相机16沿着赤道环有多个相机17,类似于图1A的环形相机。额外的非赤道上的相机15放置在相机17的赤道环的上方和下方。这些额外的非赤道相机15可以更好地拍摄极地区域附近的图像细节。
图2显示全景图像的等矩形投影(equi-rectangular projection)。真实的球形图像102具有原始特征106,其被显示为大小和形状相同的点。当真实球形图像102被环形相机或球形相机拍摄并投影到VR空间时,由于投影而可能发生失真。在等矩形投影空间104中,靠近赤道的原始特征106相对没有失真,如赤道特征110。但是,远离赤道的原始特征106会相对变形,如极地特征108。随着离赤道的距离增加,失真也会增加,因此极点附近发生非常明显的失真。来自真实球形图像102的原始像素被展开或复制以覆盖等矩形投影空间104中的更多区域,使得极地物体看起来比实际球形图像102中的真实物体更大。在矩形投影空间104,极地区域中有冗余信息,并且极点具有比赤道更多的像素。像素的不均匀分布和失真是不希望的。
图3A-3B突出了等矩形投影中极地物体的变形。在图3A,等矩形投影空间104中的极地物体112被拉伸,看起来比真实球形图像102中的实际极地物体114大得多。除了视觉失真之外,太多像素出现在矩形投影空间104中的极地物体112里,这浪费了存储和带宽。因此等矩形投影是不希望的。
图4显示了伪圆柱投影。使用正弦投影将真实球形图像102(图2)映射到伪圆柱投影130上。水平纬线(Horizontal parallels)132是直的,并有与真实球形图像102中相同的长度。中央垂直子午线134是直的,而其他垂直线变成正弦的。伪圆柱形投影130的表面积与真实球形图像102的表面积相同。极地物体136与真实球形图像102中实际极地物体114有相同的面积。
尽管有用,但由于矩形面积相同,伪圆柱形投影130不会减小矩形投影图像104的大小。当使用矩形投影图像104或伪圆柱形投影130作为全景图像时,需要相同的像素存储和带宽。
期望有一种压缩的伪圆柱投影用于虚拟现实(VR)系统和其他全景图像系统。期望在存储和传输全景图像时可以使用压缩的伪圆柱形投影。减少全景图像的存储需求是令人期望的。
附图说明
图1A-1C显示全景相机。
图2显示全景图像的等矩形投影。
图3A-3B突出显示等矩形投影中的极地物体的变形。
图4显示伪圆柱投影。
图5是改进的伪圆柱映射视频系统的流程图。
图6是压缩伪圆柱形投影图像的流程图。
图7A-7B显示从球形图像空间映射到伪圆柱形投影的输入图像。
图8A-8B显示将伪圆柱形投影图像的底部三分之一移动到顶角。
图9A-9B显示创建线性内插像素以填充压缩全景图像中的接合区域。
图10A-10B显示创建线性内插像素以填充接合区域。
图11显示编码查找表以移动像素位置和线性内插像素。
图12是一步解码表。
图13A-13D显示使用多分辨率映射对球形图像进行预处理。
图14是一个替代的多分辨率映射过程的流程图,在伪圆柱投影之后降采样非焦点块。
图15A-15D显示使用多分辨率映射来处理伪圆柱形投影图像。
图16显示多分辨率投影。
图17是一个图像处理器的框图,该图像处理器执行改进的伪圆柱投影和本文所述的其他过程。
具体实施方式
本发明涉及全景图像的图像压缩的改进。以下描述使本领域技术人员能够制造和使用在特定应用及其要求的上下文中所提供的本发明。对本领域技术人员而言,对优选实施例的各种修改将是显而易见的,在此定义的一般原理可以应用于其他实施例。因此,本发明并非旨在受限于所示和所述的特定实施例,而是应被赋予与本发明披露的原理和新颖特征一致的最宽范围。
图5是一个改进的伪圆柱映射视频系统的流程图。图1所示的环形或球形相机拍摄一系列全景图像作为球形视频142。球形视频142被预处理,并使用改进的伪圆柱映射过程140进行映射,该过程140将球形视频142的帧映射到伪圆柱形图像,然后压缩这些图像,稍后在图6中详细描述。视频编码器144对经压缩的改进的伪圆柱形图像进行编码,用于在网络156上进行传输或用于存储。
视频解码器154从网络156接收编码视频流。后处理150对图像进行解压缩和解映射,对改进的伪圆柱映射过程140进行逆操作。获得恢复的球形视频,其通过视频呈现152在球形空间中呈现。该视频可以使用诸如头戴式显示器之类的全景显示设备来显示。
图6是压缩伪圆柱形投影图像的流程图。图6更详细地显示了图5的改进的伪圆柱映射过程140。
通过伪圆柱投影映射160,将球形图像转换成伪圆柱形投影图像。y角度值不变,而x角度值被计算为y角度值的余弦乘以距离中央子午线的距离。
Figure GDA0002769199490000051
Figure GDA0002769199490000052
其中λ是与中央子午线的角度(经度),
Figure GDA0002769199490000053
是与赤道的角度(纬度),X、Y是伪圆柱投影上的笛卡尔坐标x、y值。
由于伪圆柱形投影不是矩形,而是弯曲的洋葱形状,所以在边界矩形内存在没有像素的区域。特别地,包围伪圆柱投影的边界矩形的四个角,具有不存在图像像素的未使用或无效区域(non-effective areas)。在步骤162,将伪圆柱形投影的底部三分之一移动到边界矩形的顶角,并置于未使用的无效区域中。然后在步骤164删除图像的底部三分之一。
在伪圆柱形投影图像的移动的底角与顶部之间仍存在未使用的无效区域。在步骤166,这些无效区域由线性内插创建的像素填充。创建线性内插像素,提供了更好的视频编码,其在这些未使用区域中仅具有暗像素。如果使用暗或明像素填充无效区域,则会导致像素值的突然变化。像素值的这种突然变化会产生高频图像分量,其增加了压缩视频流的比特率,并且由于编码/解码而造成视觉伪影。因此用线性内插像素填充无效区域会使图5的视频编码器144更加有效且高效,从而降低了带宽需求。
图7A-7B显示了从球形图像空间映射到伪圆柱形投影的一个输入图像。图7A显示了一个输入全景图像。骑自行车的人在左边建筑物和右边背景树之间的道路上。尽管道路在全景图像中心附近呈现弯曲状,但实际道路是直的。
在图7B,图7A全景图像的像素被映射到伪圆柱形投影图像。正弦投影如:
Figure GDA0002769199490000061
Figure GDA0002769199490000062
使用正弦投影从图7A的输入图像生成图7B的图像。边界矩形的四个角是暗的,因为没有图7A的图像像素映射到四个角。
图8A-8B显示将伪圆柱形投影图像的底部三分之一移动到顶角。在图8A,分隔线174将包含伪圆柱形投影图像的矩形边界图像180切割成分隔线174上方的顶部三分之二和分隔线174下方的底部三分之一。对于2160行的图像,1440行像素在分隔线174之上,720行像素在分隔线174之下。垂直分隔线176是中央子午线的一部分。
在图8B,位于分隔线174下方且在垂直分隔线176左侧的左下区域170被移动到矩形边界图像180的右上角,在伪圆柱形投影图像外侧的暗区域中。类似地,位于分隔线174下方且在垂直分隔线176右侧的右下区域172被移动到矩形边界图像180的左上角,同样在伪圆柱形投影图像外侧的暗区域中。
由于左下区域170和右下区域172的像素已被复制或移动到矩形边界图像180的上角,所以可以删除底部三分之一的像素行。像素行数从2160减少到1440,减少了33%。
由于左下区域170并不完全匹配矩形边界图像180的右上方的暗的无效区域,因此还存在一小长条暗区域,即接合区域178。此外,在每个下角,在原始图像赤道下方,都有一个楔形的、暗的无效区域,即下接合区域179。
图9A-9B显示创建线性内插像素以填充压缩全景图像中的接合区域。图9A显示在移动左下区域170和右下区域172之后、被切割了三分之一的图8B的矩形边界图像180。在接合区域178、192、179中没有像素,因此这些区域看上去是暗的。从图像区域中的明像素到接合区域178、192、179的暗像素的突然变化会导致视频编码困难,因此生成线性内插像素以填充接合区域178、192、179,如图9B所示。接合区域178的暗像素或像素缺失被改变为内插接合区域188中的线性内插像素。同样地,下接合区域179通过复制最后有效像素来填充以形成内插接合区域189。
图像尺寸已经减少了三分之一,从2160行减少到1440行。最终的压缩图像是1440x3860。
图10A-10B显示创建线性内插像素以填充接合区域。方框190(图9B)在图10A-10B中更详细地显示接合区域192。在图10A,像素274位于接合区域192和移动图像区域194之间的边界处,移动图像区域194的像素是从左下区域170(图8B)移过来的。
像素272位于接合区域192和原始图像区域196之间的边界处,原始图像区域196有伪圆柱形投影图像(图7B)。像素272、274位于同一行像素中。
在图10B,线性内插像素276是通过像素272、274的线性内插而创建的。类似地,像素272和像素274之间的、该行上的其他像素也使用线性内插来创建。其他行上的、边界之间的内插像素使得内插接合区域198中的所有像素得以建立。这种线性内插平滑了内插接合区域198上的像素颜色转换,从而减少了视频编码伪影和低效。
图11显示用于移动像素位置和线性内插像素的编码查找表。可以使用查找表来读取各个输入像素位置的结果,而不是对每个像素执行计算。在将右下区域172和左下区域170移动到顶角的无效区域之后,第一查找表202接收像素位置(λ,φ)并输出像素的(x,y)位置。对于输入图像的有效区域内的像素,包括左下区域170和右下区域172,执行正弦映射以转换像素的(λ,φ)位置,而输出像素在矩形边界图像180内的(x,y)位置。该正弦映射使用以下公式执行伪圆柱投影:
Figure GDA0002769199490000071
Figure GDA0002769199490000081
因此,左下区域170和右下区域172到上角的正弦投影和移动,都通过第一查找表202执行。
对于在接合区域178和任何其他无效区域内的像素(x,y)位置,第二查找表204执行线性内插以生成混合像素值来填充接合区域178。穿过接合区域178的同一行的、两个边界的像素值被混合,以产生线性内插像素。第二查找表204可以存储分数值或百分比值,左边界像素值乘以该分数,而右边界像素值乘以1减去该分数。将这两个结果相加,以生成线性内插像素值或混合像素值。也可以由单个表执行第一查找表202和第二查找表204的两个功能。
图12是一步解码表。在传输或存储之后,编码的视频流被解码。可以由执行各种计算的处理器在运行时执行解码,或者可以使用查找表来直接提供任何编码值的结果。解码表206接收编码图像内的像素的(x,y)位置,并直接从查找表中读取重建球形图像中的像素的极坐标
Figure GDA0002769199490000082
存储在解码表206中的值包括将像素从上角移回到左下区域170和右下区域172、删除接合区域178中的线性插值像素、以及逆向伪圆柱投影以恢复球形空间像素的结果。然后,可以将这些球形空间像素显示给用户,例如利用头戴式显示器。
图13A-13D显示使用多分辨率映射对球形图像进行预处理。在图13A,输入球形图像222有一个焦点区域220,其可以是用户的视点,或用户正在看的图像222上的区域。焦点区域220是输入球形图像222的最重要部分,因为用户焦点是在该部分图像上。
输入球形图像222被分成12个块,在图13B中标记为1至12。焦点区域220是在块8和11中。焦点块保持全输入分辨率,但其他非焦点块1-7、9-10和12可以在x和y方向上都被降采样一半,因此降采样块只需要原始全分辨率块的四分之一空间。
在图13C,焦点块8、11需要四个较小块,而其他10个降采样块被放置在焦点块周围,如图13C所示位置处。图13D显示多分辨率图像224,包括全分辨率焦点块8、11以及降采样块1-7、9-10和12。多分辨率图像224可以替换原始球形图像(图7A),然后才进行正弦投影、下方三分之一区域移动以及线性内插。
当输入球形图像的尺寸是3840×1440时,对多分辨率图像224进行降采样可以将图像尺寸减小到1920×1080,即减少62.5%。
图14是一个替代的多分辨率映射过程流程图,在伪圆柱投影之后降采样非焦点块。通过使用以下的正弦投影公式,伪圆柱投影映射160将球形图像转换为伪圆柱形投影图像:
Figure GDA0002769199490000091
Figure GDA0002769199490000092
在创建伪圆柱形投影图像之后,步骤230进行降采样非焦点或非视区块。从而,减小了伪圆柱形投影图像的尺寸。
在步骤162,部分降采样伪圆柱投影的底部三分之一被移动到边界矩形的顶角,放置在未使用的无效区域中。然后在步骤164,图像的底部三分之一被删除。在步骤166,将线性插值生成的像素填充在无效区域。
图15A-15D显示使用多分辨率映射来处理伪圆柱形投影图像。在图15A,输入球形图像240的焦点区域在中央块40,其可以是用户的视点。
输入球形图像240被分成9个块。中央块40被侧边块42、顶部和底部块44以及角块46包围。
在正弦投影之后,输入球形图像240在水平方向上对侧边块42,被降采样一半到八分之一,在垂直方向上对顶部和底部块44,被降采样一半。在两个方向上对角块46被降采样一半到八分之一。降采样的伪圆柱投影的分辨率是1380×1620,在图15B中表现为降采样的伪圆柱形投影图像242。降采样量(1/2至1/8)可以取决于到中心块40的距离。
在图15C,将左下区域和右下区域移动到上角,并删除降采样的伪圆柱形投影图像242的下三分之一,以生成缩小的降采样伪圆柱形投影图像244。在接合区域上执行线性内插之后,图15D的改进的伪圆柱形多分辨率图像246可以被编码、存储和传输。
当输入球形图像的尺寸是3840×2160时,对多分辨率图像246的降采样可以将图像尺寸减小到1380×1260,即几乎减少80%。
图16显示多分辨率投影。可以改变焦点,例如当用户移动头戴式显示器或者改变视点或焦点时。
当输入球形图像250的焦点是焦点区域255时,输入球形图像250被移位,使得焦点区域255是输入球形图像250的中心,从而产生变换的输入球形图像252,其可以用作输入球形图像,并且可以如图14所示的那样,使用多分辨率和改进的伪圆柱投影和线性内插来处理,以生成改进的伪圆柱形多分辨率图像262,其焦点区域255在全分辨率中心。
当输入球形图像250的焦点是焦点区域253时,输入球形图像250被移位,使得焦点区域253是输入球形图像250的中心,从而产生变换的输入球形图像254,其可以用作输入球形图像,并如图14所示的那样进行处理,以生成改进的伪圆柱形多分辨率图像264,其焦点区域253在全分辨率中心。
当输入球形图像250的焦点是焦点区域251时,输入球形图像250被移位,使得焦点区域251是输入球形图像250的中心,从而产生变换的输入球形图像256,其可以用作输入球形图像,并如图14所示的那样进行处理,以生成改进的伪圆柱形多分辨率图像266,其焦点区域251在全分辨率中心。
图17是执行改进的伪圆柱投影和本文所述的其他处理过程的图像处理器的框图。图形处理单元(GPU)500是具有图形处理增强功能(例如处理像素的图形管线)的微处理器。GPU 500执行存储在存储器中的指令520来执行处理流程图6和14。
来自输入球形图像的像素值被输入到存储器510以供GPU 500处理,GPU 500可使用查找表或处理器来移动和内插像素,并将像素值写入存储器中的VR图形空间522。
其他VR应用程序可以访问存储在VR图形空间522中的全景图像以向用户显示,诸如在头戴式显示器(HMD)。
其它实施方式
发明人设想了若干其他实施例。例如,已经描述了整个球形图像空间上的1:1采样率,但是可以对全部或部分球形图像空间替换为其他采样率。在一些实施例中,已经对所有视点或焦点区域描述了统一质量,但适应性视图流、焦点改变和多分辨率映射可以以各种方式替代或组合。可以使用各种视野。可以使用或组合多个编码流用于传输或存储。各种查表方案可以与一个或多个查找步骤一起使用。来自查找表的存储和读取的值可以被缩放、倍增或以其他方式操作以生成输出。
虽然三分之一的值已经用于分隔线174的位置,但也可以使用其他值,只要移动区域不与伪圆柱形投影图像重叠即可。移动区域如右下区域172被移到无效区域,其不包含输入图像即伪圆柱形投影130的任何像素。将分隔线174放置在行的三分之一上,使得可以删除行的三分之一,将图像压缩33%。对伪圆柱形投影而言,三分之一是一个好选择,因为左下区域170、右下区域172刚好可以装在顶角的无效区域中,但可以替换为其他分数和压缩比。例如,分隔线174可以位于30-70行边界处,使得至少30%的行位于分隔线174下方,从而压缩至少30%。
移动区域如右下区域172可以被移动到其他位置,在移动时被翻转、逆转或交叉。移动像素可以以各种方式进行编码,如产生逆像素或颜色映射像素,这些编码或映射可以通过解码过程撤销。移动像素可以与图像像素是相同格式,或可以是不同或改进的格式。
虽然无效区域已被描述为是暗的,但无效区域的默认像素值可以是白色、灰色、蓝色、绿色或其他一些默认值。在无效区域中没有图像像素可能意味着暗像素或另一个默认像素值。像素存储器可能默认为该默认像素值,或可以使用默认像素值写入,如初始化内存时。
由于物理存储器设备是以存储器单元的行和列来配置的,所以存储器空间有一个矩形形状。矩形边界图像180(图8A)是分配给存储伪圆柱形投影图像(其形状不是矩形)的存储空间。在伪圆柱形投影图像之外的矩形边界图像180的区域是具有默认像素值的无效区域。可以通过将像素复制到上角来移动像素,使得原始像素值仍然保留在右下区域172和左下区域170中。边界图像180不一定必须是矩形的,还可以是其他形状,例如圆形或球形的,对于以极坐标排列的存储器来说。边界图像180可以在矩形或其他存储空间中有切口或凹口,诸如用于预留的存储区域,用于不好的物理存储位置,用于存储诸如元数据等的开销信息。同样,出于各种原因,如相机限制,球形图像可以有没有图像像素的切口或区域。因此,球形图像不一定是完整的球体。
为了更好地理解本发明,使用方向术语,如上、下、在…上、在…下、上面的、下面的、右、左等,它们是可互换的,诸如通过翻转图像、投影或内存空间。因此这些方向术语并不意味着限制。
不同的降采样率或比率可以被替代。降采样可以在流程的不同点上执行,如正弦投影之前或之后。降采样可以在伪圆柱形投影图像正弦投影之前或之后,在输入球形图像上执行。降采样甚至可以在左下区域170和右下区域172被移动到顶角之后,或在接合区域178的线性插值之后,在改进的伪圆柱形投影图像上执行。降采样可以随区域的不同而不同,随x和y方向(行和列)的不同而不同。降采样可针对网络条件进行调整,以便在网络状况不佳的情况下使用更大的降采样率。
查找表可以用来实现各种功能,使用一步查找来代替例程计算。各种多分辨率投影技术可以以各种方式相互组合,并且与图6、14的流程相结合。
发明人设想了几个其他实施例。例如,可以添加额外的功能和步骤,一些步骤可以与其他步骤同时执行,例如以管线形式,或可以按照重新排列的顺序执行。当使用运动图像专家组(MPEG)或其他编码系统对视频流进行编码或压缩时,可以使用内编码、预测和双向预测帧来执行前向、后向或双向运动补偿。
虽然已经描述了单个全景图像空间(其可以通过将图像拼接在一起而生成),但图像可以是图像序列如视频的一部分,可以针对不同时间点生成全景图像序列。全景空间因此可以随着时间而改变。
尽管设想了YUV像素,但可以接受其他像素格式,并将其转换为YUV格式。YUV格式本身对于其子层(Y,U,V)可以有不同的比特编码和比特宽度(8、16等),Y,U和V的定义和物理映射为亮度和颜色可以有所不同。可以使用其他格式,如RGB,CMYK,HSL/HSV等。术语YUV不限于任何特定的标准,但可以包括任何格式,使用一个子层(Y)来表示亮度而不是颜色,两个其他子层(U,V)表示色彩空间。
在为接合区域178生成线性内插像素时,平均的Y值数据点的数量可以调整。像素可以在两个维度上(多行)而不是单维(一行)上平均。将更多的数据点进行平均,会在接合区域178内产生更平滑的颜色过渡。同样地,下接合区域179可以通过复制最后的有效像素来填充以形成内插的接合区域189。线性内插也可以被其他填充方法替代,如用复制像素填充接合区域,使有固定梯度或其他梯度的像素,或通过复制接合区域边缘处或附近图像的像素。插值也可以是非线性的,或者使用除线性公式之外的一些公式,例如单调的非线性梯度。当接合区域在行的一侧有图像像素但在行的另一侧没有图像像素时,可以复制一侧的图像像素在整行上。或者,可以为没有图像像素的一侧分配一个固定的默认像素值,并使用线性内插像素来填充该行。
可以使用各种分辨率,如HD、4K等,像素和子层可以用各种方式以不同格式、比特宽度等来进行编码和解码。可以使用其他图像处理如掩膜,诸如用于面部识别、图像或对象跟踪等。
虽然已经显示了图像,但是任何错误或伪影的出现可能随图像本身以及处理方法(包括任何预处理)而大不相同。附图中的这些图像仅仅是为了更好地理解所涉及的问题以及发明人如何解决这些问题,并不意味着限制或限定本发明。
颜色像素可以转换为灰度用于各种处理,例如用于有查询的搜索窗口中搜索。颜色系统可以在预处理或后处理期间进行转换,例如在YUV和RGB之间,或在有不同比特每像素的像素之间。可以使用各种像素编码,并可以添加帧头和音轨。GPS数据或相机方向数据也可以被捕获,并被附加到视频流。
像素的大小、格式和类型可以变化,例如RGB、YUV、8位、16位,或可以包括其他效果,如纹理或闪烁。也可以使用自适应例程。在某些区域可以使用较低分辨率,而在物体边界附近或高细节区域使用高分辨率。
被拼接以形成全景的图像数量可以随应用和相机系统的不同而不同,重叠区域的相对尺寸可以不同。全景图像和空间可以是360度,或可以是球形或半球形,或可以小于一个全360度环绕,或由于各种原因可能丢失图像片段。曲线和直方图的形状和其他特征可以随图像本身的不同而变化很大。
硬件、可编程处理器、软件和固件的各种组合可以用于实现功能和块。可以使用管线,可以并行处理。可以使用各种例程和方法,用于线性插值和块尺寸的搜索范围等因素也可以变化。
在每个时间帧中没有必要全部处理所有块或区域。例如,只处理每个图像的子集或有限区域。可以预先知道,移动物体仅出现在全景帧的特定区域中,例如移动的汽车仅出现在相机拍摄的全景的右侧,因为右边是高速公路,左边是建筑物。“帧”可以只是由相机拍摄或存储或传输的静止图像的一个子集。
本发明的背景部分可以包含关于本发明问题或环境的背景信息,而不是描述其他人的现有技术。因此,在背景部分中包含材料并不是申请人对现有技术的承认。
在此所述的任何方法或过程是机器实现的或计算机实现的,并旨在由机器、计算机或其他设备执行,而不是在没有这种机器辅助的情况下仅由人类执行。生成的有形结果可以包括显示设备(例如计算机显示器、投影设备、音频生成设备和相关媒体设备)上的报告或其他机器生成的显示,还可以包括机器生成的硬拷贝打印输出。其他机器的计算机控制是另一个有形的结果。
所述的任何优点和益处可能不适用于本发明的所有实施例。通常,一个或多个单词的标签位于单词“装置”之前。单词“装置”前面的单词是旨在便于参考权利要求元素的标签,并不意图表达一种结构限制。这种装置加功能的权利要求旨在不仅覆盖在此所述的用于执行该功能及其结构等同物的结构,而且覆盖等同的结构。例如,虽然钉子和螺钉具有不同的结构,但它们都具有等同的结构,因为它们都具有紧固功能。信号通常是电子信号,但也可以是光信号,例如可以通过光纤传送。
已经出于说明和描述的目的呈现了本发明的实施例的前述描述。这并不意味着穷举或将本发明限制到所公开的确切形式。鉴于上述教导,许多修改和变化是可能的。本发明的范围不受该详细描述的限制,而是受所附权利要求的限制。

Claims (18)

1.一种改进的伪圆柱映射器,包括:
伪圆柱形投影,其包括正弦投影,接收至少一部分球形图像,并在所述球形图像上执行正弦投影以生成伪圆柱形投影图像;
存储器管理器,其分配多个行存储器以存储所述伪圆柱形投影图像,其中所述多个行存储器形成一个包围所述伪圆柱形投影图像的边界图像空间,所述边界图像空间是矩形;
其中所述伪圆柱形投影图像不是矩形的;
其中所述边界图像空间的第一角存在没有所述伪圆柱形投影图像的像素的未使用或无效区域;
第一像素移动器,其从所述伪圆柱形投影图像中移动第一图像像素,所述第一图像像素位于分隔线的第一侧并位于中心线的左侧,其中所述第一图像像素被移动到所述边界图像空间的第一上角并置于未使用或无效区域,所述第一上角位于所述中心线的右侧;
第二像素移动器,其从所述伪圆柱形投影图像中移动第二图像像素,所述第二图像像素在所述分隔线的第一侧且位于所述中心线右侧,其中所述第二图像像素被移动到所述边界图像空间的第二上角并置于未使用或无效区域,所述第二上角位于所述中心线的左侧;
压缩器,其删除位于所述分隔线的第一侧的像素以减小所述边界图像空间的尺寸,从而排除位于所述分隔线的第一侧的像素;
像素生成器,其生成由线性内插创建的填充像素,所述填充像素被写入到所述边界图像空间中的接合区域,所述接合区域不在所述分隔线的第一侧,其中所述接合区域没有来自所述伪圆柱形投影图像的像素;
其中,所述分隔线的第一侧是指所述伪圆柱形投影图像的底部三分之一的图像所在的一侧。
2.根据权利要求1所述的改进的伪圆柱映射器,其中所述伪圆柱形投影产生与所述球形图像的赤道平行线的y角的余弦乘以与所述球形图像的中央子午线的角。
3.根据权利要求2所述的改进的伪圆柱映射器,其中所述伪圆柱形投影接收所述球形图像中的每个图像像素的位置的经度λ和纬度
Figure FDA0002769199480000011
其中所述伪圆柱形投影还包括映射器,所述映射器生成所述伪圆柱形投影图像中的图像像素位置的笛卡尔坐标X、Y值,将X计算为所述纬度
Figure FDA0002769199480000021
的余弦乘以所述经度λ的距离所述中央子午线λ0的距离,将所述纬度
Figure FDA0002769199480000022
复制成Y值。
4.根据权利要求1所述的改进的伪圆柱映射器,其中
其中所述第一图像像素从所述边界图像空间的左下角移到右上角;
其中所述第二图像像素从所述边界图像空间的右下角移到左上角;
其中图像像素在从底部向顶部移动时在所述中心线的上方交叉。
5.根据权利要求1所述的改进的伪圆柱映射器,其中所述像素生成器是像素内插器,所述像素内插器为所述接合区域的每行读取一个左图像像素和一个右图像像素;
其中所述左图像像素是所述伪圆柱形投影图像上的、邻近所述接合区域的左边界的一个图像像素;
其中所述右图像像素是所述伪圆柱形投影图像上的、邻近所述接合区域的右边界的一个图像像素;
其中所述像素内插器将所述左图像像素的第一部分添加到所述右图像像素的第二部分,以生成一个内插像素作为所述填充像素。
6.根据权利要求5所述的改进的伪圆柱映射器,其中所述第一部分是所述左图像像素和所述内插像素之间的距离的一个函数。
7.根据权利要求5所述的改进的伪圆柱映射器,其中所述左图像像素和所述右图像像素是在所述接合区域的同一行上。
8.根据权利要求4所述的改进的伪圆柱映射器,其中所述像素生成器是一个线性内插器。
9.根据权利要求4所述的改进的伪圆柱映射器,其中所述像素生成器从与正生成的填充像素的当前行相邻的行读取源图像像素;
由此所述像素生成器执行二维插值。
10.根据权利要求1所述的改进的伪圆柱映射器,还包括:
查找表,由所述球形图像中的图像像素的位置寻址,并读出所述边界图像空间内的所述图像像素的位置,其中所述位置是由所述第一像素移动器、所述第二像素移动器或所述伪圆柱形投影调整的;
由此所述查找表将图像像素映射到所述边界图像空间内的位置,以考虑所述第一像素移动器、所述第二像素移动器或所述伪圆柱形投影的操作。
11.根据权利要求10所述的改进的伪圆柱映射器,其中当所述查找表是由所述接合区域中的位置寻址时,所述查找表还存储内插因子,用于组合所述接合区域的每行的左图像像素和右图像像素。
12.根据权利要求1所述的改进的伪圆柱映射器,还包括:
降采样器,用于降低所述伪圆柱形投影图像中的图像像素的非焦点块的分辨率;
其中所述非焦点块被降采样,而焦点块则保持全分辨率。
13.根据权利要求12所述的改进的伪圆柱映射器,其中所述降采样器从所述球形图像读取图像像素;
由此,在所述伪圆柱形投影生成所述伪圆柱形投影图像之前执行降采样。
14.根据权利要求12所述的改进的伪圆柱映射器,其中所述降采样器从所述伪圆柱形投影图像读取图像像素;
由此,在所述伪圆柱形投影生成所述伪圆柱形投影图像之后执行降采样。
15.根据权利要求13所述的改进的伪圆柱映射器,还包括:
焦点选择器,用于选择所述球形图像中的焦点块,所述焦点选择器根据在所述球形图像内的用户视点的改变而改变焦点块的选择。
16.一种全景视频方法,包括:
在视频输入处接收一系列球形图像;
对所述球形图像进行正弦变换以生成伪圆柱形投影图像,所述伪圆柱形投影图像是非矩形的,并被映射到存储空间,其中分隔线下方的图像像素的左下区域图像像素被移动到所述存储空间的右上角,分隔线下方的图像像素的右下区域图像像素被移动到所述存储空间的左上角,所述右上角和左上角位于所述伪圆柱形投影图像之外,其中所述分隔线下方的图像像素被删除,以将所述存储空间压缩到一个压缩存储空间,其中所述分隔线下方的图像像素是指所述伪圆柱形投影图像的底部三分之一的图像像素;
生成由线性内插创建的填充像素,以填充所述压缩存储空间的无效区域;
对所述压缩存储空间中的所述图像像素和所述填充像素进行编码,作为传输像素进行传输;
将所述传输像素进行解码,以生成一个恢复存储空间;
删除所述恢复存储空间中的填充像素,将图像像素从所述恢复存储空间的右上角和左上角移动到所述分隔线下方的图像像素的恢复行,以生成一个恢复的伪圆柱形投影图像;
对所述恢复的伪圆柱形投影图像执行反正弦变换,以生成一个恢复的球形图像;
将所述恢复的球形图像呈现在一个球形图像空间中以向用户展示。
17.一种全景图像压缩器,包括:
全景图像输入,用于接收球形图像;
正弦变换器,其通过将与赤道平行线的纬度角的余弦乘以与中央子午线的经度角,将所述球形图像转换成伪圆柱形投影图像,以生成所述伪圆柱形投影中的图像像素的X位置;
存储空间,用于存储所述伪圆柱形投影图像;
像素移动器,用于移动所述存储空间内的图像像素,其中在分隔线的第一侧的所述伪圆柱形投影图像中的左下区域图像像素被移动到所述存储空间的右上角,在分隔线的第一侧的所述伪圆柱形投影图像中的右下区域图像像素被移动到所述存储空间的左上角,所述右上角和左上角位于所述伪圆柱形投影图像之外;其中,在所述分隔线的第一侧的所述伪圆柱形投影图像是指所述伪圆柱形投影图像的底部三分之一的图像;
行压缩器,用于减少所述存储空间,以排除所述分隔线的第一侧上的行,其中所述分隔线的第一侧上的图像像素的行被丢弃;
像素内插器,用于从所述伪圆柱形投影图像中的两个或多个源像素以及拐角上的移动图像像素生成内插像素,其中所述内插像素被写入到存储空间的与所述分隔线的第一侧相反的一侧上,以填充没有图像像素的剩余区域。
18.根据权利要求17所述的全景图像压缩器,还包括:
降采样器,用于通过将四个或更多图像像素合并成单个图像像素,用于所述球形图像的压缩区域,以压缩所述球形图像中的图像像素;
其中所述存储空间是矩形的。
CN201880000751.XA 2018-06-07 2018-06-11 用于流图像压缩的球面视频的改进的伪圆柱映射 Active CN109792490B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/002,165 2018-06-07
US16/002,165 US10735765B2 (en) 2018-06-07 2018-06-07 Modified pseudo-cylindrical mapping of spherical video using linear interpolation of empty areas for compression of streamed images
PCT/CN2018/090708 WO2019232811A1 (en) 2018-06-07 2018-06-11 Modified pseudo-cylindrical mapping of spherical video using linear interpolation of empty areas for compression of streamed images

Publications (2)

Publication Number Publication Date
CN109792490A CN109792490A (zh) 2019-05-21
CN109792490B true CN109792490B (zh) 2021-01-15

Family

ID=66500781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880000751.XA Active CN109792490B (zh) 2018-06-07 2018-06-11 用于流图像压缩的球面视频的改进的伪圆柱映射

Country Status (1)

Country Link
CN (1) CN109792490B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115604528A (zh) * 2021-07-09 2023-01-13 影石创新科技股份有限公司(Cn) 鱼眼图像压缩、鱼眼视频流压缩以及全景视频生成方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106162140A (zh) * 2016-08-30 2016-11-23 北京奇艺世纪科技有限公司 一种全景视频的压缩方法及装置
CN106210716A (zh) * 2016-08-01 2016-12-07 上海国茂数字技术有限公司 一种全景视频等密度采样方法及装置
CN106341673A (zh) * 2016-08-15 2017-01-18 李文松 一种新型2d/3d全景vr视频的存储方法
CN106375760A (zh) * 2016-10-11 2017-02-01 上海国茂数字技术有限公司 一种全景视频多边形采样方法及装置
WO2017158236A2 (en) * 2016-03-15 2017-09-21 Nokia Technologies Oy A method, an apparatus and a computer program product for coding a 360-degree panoramic images and video
CN107622474A (zh) * 2017-09-26 2018-01-23 北京大学深圳研究生院 基于主视点的全景视频映射方法
WO2018087425A1 (en) * 2016-11-08 2018-05-17 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017158236A2 (en) * 2016-03-15 2017-09-21 Nokia Technologies Oy A method, an apparatus and a computer program product for coding a 360-degree panoramic images and video
CN106210716A (zh) * 2016-08-01 2016-12-07 上海国茂数字技术有限公司 一种全景视频等密度采样方法及装置
CN106341673A (zh) * 2016-08-15 2017-01-18 李文松 一种新型2d/3d全景vr视频的存储方法
CN106162140A (zh) * 2016-08-30 2016-11-23 北京奇艺世纪科技有限公司 一种全景视频的压缩方法及装置
CN106375760A (zh) * 2016-10-11 2017-02-01 上海国茂数字技术有限公司 一种全景视频多边形采样方法及装置
WO2018087425A1 (en) * 2016-11-08 2018-05-17 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
CN107622474A (zh) * 2017-09-26 2018-01-23 北京大学深圳研究生院 基于主视点的全景视频映射方法

Also Published As

Publication number Publication date
CN109792490A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN112204993B (zh) 使用重叠的被分区的分段的自适应全景视频流式传输
US10574955B2 (en) Re-projecting flat projections of pictures of panoramic video for rendering by application
US20050063596A1 (en) Encoding of geometric modeled images
US6683608B2 (en) Seaming polygonal projections from subhemispherical imagery
US20190281273A1 (en) Adaptive loop filtering method for reconstructed projection-based frame that employs projection layout of 360-degree virtual reality projection
Fachada et al. Depth image based view synthesis with multiple reference views for virtual reality
US11483475B2 (en) Adaptive panoramic video streaming using composite pictures
US20200213570A1 (en) Method for processing projection-based frame that includes at least one projection face and at least one padding region packed in 360-degree virtual reality projection layout
JP2017530626A (ja) ビデオコード化のための同時ローカライゼーション及びマッピング
US11189079B2 (en) Processing of 3D image information based on texture maps and meshes
KR20040050888A (ko) 비평면 화상의 화상 처리 장치 및 화상 처리 방법, 기억매체 및 컴퓨터 프로그램
JP2002506585A (ja) マスクおよび丸め平均値を使用したオブジェクトベースの符号化システムのためのスプライト生成に関する方法
US10659780B2 (en) De-blocking method for reconstructed projection-based frame that employs projection layout of 360-degree virtual reality projection
US11069026B2 (en) Method for processing projection-based frame that includes projection faces packed in cube-based projection layout with padding
KR101933037B1 (ko) 360도 동영상에서의 가상현실 재생 장치
US10735765B2 (en) Modified pseudo-cylindrical mapping of spherical video using linear interpolation of empty areas for compression of streamed images
JP2006309802A (ja) 画像処理装置及び画像処理方法
CN109792490B (zh) 用于流图像压缩的球面视频的改进的伪圆柱映射
WO2019138163A1 (en) A method and technical equipment for encoding and decoding volumetric video
WO2003045045A2 (en) Encoding of geometric modeled images
US20210203995A1 (en) Video decoding method for decoding bitstream to generate projection-based frame with guard band type specified by syntax element signaling
Stone Omnidirectional Stereoscopic Projections for VR.
TW202338738A (zh) 視訊信號及其處理
Ekpar et al. On the Interactive Visualization of Very Large Image Data Sets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant