CN117036154B - 一种无头显和无失真的全景视频注视点预测方法 - Google Patents
一种无头显和无失真的全景视频注视点预测方法 Download PDFInfo
- Publication number
- CN117036154B CN117036154B CN202311035700.XA CN202311035700A CN117036154B CN 117036154 B CN117036154 B CN 117036154B CN 202311035700 A CN202311035700 A CN 202311035700A CN 117036154 B CN117036154 B CN 117036154B
- Authority
- CN
- China
- Prior art keywords
- erp
- image
- images
- projection
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 48
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 3
- 238000000605 extraction Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 238000005192 partition Methods 0.000 claims 3
- 230000000694 effects Effects 0.000 abstract description 7
- 238000012546 transfer Methods 0.000 abstract description 5
- 230000000007 visual effect Effects 0.000 description 9
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种无头显和无失真的全景视频注视点预测方法。所述预测方法包括:将全景视频的ERP图像依次进行球体投影、球体划分、子区域平面投影,获得其多点2D投影图像,将多点2D投影图像进一步进行加窗格处理、非中心区域模糊处理、辅助窗口覆盖、动态模糊处理,得到其动态模糊图像,其后根据动态模糊图像构建的视频数据集对注视点预测模型进行训练,由训练完成后的预测模型获得注视点预测图。本发明不需要头戴式显示器、无视觉盲区,图像无失真现象,且可充分处理注意转移的现象,得到准确、稳健地预测效果。
Description
技术领域
本发明属于图像处理与计算机视觉的技术领域,尤其涉及全景视频注视预测方法的技术领域。
背景技术
与受到广泛研究关注的传统二维图像注视点预测不同,全景注视预测需要快速定位全景场景中最重要的区域,预测难度和复杂度极大地提高了,但由于现有的关于全景视频注视点数据的大规模数据集极为缺乏,导致全景注视预测的技术进展缓慢。
在获取全景场景注视点数据的方式中,基于头戴式显示器(HMD)的人眼注视收集是目前最流行的方法,由参与者佩戴头戴式显示器自由探索给定的全景场景,同时收集其注视点相关数据。但该方法中,采用头戴式显示器进行注视时总是存在视觉盲区,无法依靠参与者的头部旋转获得整个全景场景的探索情况,参与者在探索全景场景时通常也会感到非常不舒服,影响实际的注视数据,同时,采用头戴式显示器的注视收集成本也较为昂贵,无法推广应用。
在基于头戴式显示器的人眼注视收集方法之外,另一种被提出的方法是通过平面等距柱状投影(ERP)将全景场景(典型的球形数据)投影到2D平面,再使用与二维图像相关的研究方法。但由于基于ERP的2D投影图像会产生严重的视觉扭曲,特别是图像中两极周围的区域,该方法并不适合于实际的人眼注视采集。
发明内容
针对现有技术的缺陷,本发明的目的在于提出一种新的全景注视点预测方法,该方法可克服现有的如基于头戴式显示器(HMD)和基于平面等距柱状投影(ERP)的注视点预测的缺陷,快速、准确地获得大量无无头显和无失真的全景视频注视数据。
本发明的技术方案如下:
一种无头显和无失真的全景视频注视点预测方法,其包括:
S1获得全景场景的平面等距柱状投影图像,即其ERP图像,将所述ERP图像投影至球体上,形成其球体投影图像,将所述球体投影图像划分为若干子区域,将每个子区域内的球体投影图像即子区域球体投影图像进行平面投影,得到各子区域的2D投影图像Sub2D,将所得各子区域的2D投影图像按其在ERP图像中的对应位置进行对齐组合,得到所述ERP图像的多点2D投影图像ERPsub;
S2对所述多点2D投影图像ERPsub中各子区域图像进行加窗格处理,并按其在ERP图像中的对应位置进行对齐组合,获得窗格图像ERPwind;
S3对所述窗格图像ERPwind除中心区域之外的所有子区域图像进行自窗格中心向窗格边缘的渐变的高斯模糊处理,越靠近窗格边缘的地方模糊程度越高,得到模糊处理后的子区域图像,并按其在ERP图像中的对应位置进行对齐组合,得到模糊处理后的图像ERPsmooth;
S4对所述模糊处理后的图像ERPsmooth的各子区域图像进行辅助窗口覆盖,得到使用辅助窗口后的图像ERPAuxW;
S5对所述使用辅助窗口后的图像ERPAuxW的各子区域图像进行动态模糊处理,获得其动态模糊图像ERPDB;
S6基于S1-S5的处理过程,构建进行全景视频注意视点学习的视频数据集;
S7通过所述视频数据集进行注视点预测模型训练,由训练完成后的预测模型获得注视点预测图。
根据本发明的一些优选实施方式,S3中所述渐变的高斯模糊处理包括:设置中心区域的高斯函数为0,即对其不进行高斯模糊,并设置向窗格边缘区域靠近的高斯函数的值逐渐增大,在窗格边缘处达到最大。
根据本发明的一些优选实施方式,所述S1进一步包括:
S11通过逆等距投影法将所述ERP图像投影到一个球体上,获得其球体投影图像;
S12自所述球体投影图像的球体极点开始,通过经向划分线和纬向划分线将球体划分为多个不重叠的子区域,得到各子区域球体投影图像SubSphere;
S13通过多点2D投影将各子区域球体投影图像SubSphere投影至2D空间,得到其2D投影图像Sub2D;
S14将各子区域的2D投影图像Sub2D按其在ERP图像中的对应位置进行对齐组合,得到所述多点2D投影图像ERPsub;
其中,所述逆等距投影法即等距投影法的逆变换。
根据本发明的一些优选实施方式,所述划分中设置相邻经向划分线之间的跨度为30°,相邻纬向划分线之间的跨度为30°。
根据本发明的一些优选实施方式,所述模糊处理中,设置所述中心区域为图像中间两行的子区域范围。
根据本发明的一些优选实施方式,所述辅助窗口覆盖中,设置每个辅助窗口具有相同数量的子区域(Sub2D)覆盖范围,总的辅助窗口数量为6个。
根据本发明的一些优选实施方式,所述动态模糊使用高斯平滑模糊。
根据本发明的一些优选实施方式,所述视频数据集的构建包括:
S61自视频集中获得若干高质量的视频帧图像;
S62将各高质量的视频帧图像分别进行ERP投影,获得其对应的ERP图像;
S63通过步骤S1-S5的过程对S62得到的各ERP图像进行处理,获得其对应的动态模糊图像;
S64将S63得到的各动态模糊图像按其在原视频中的对应位置关系合成新的视频,由各新视频组成所述视频数据集。
根据本发明的一些优选实施方式,所述注视点预测模型的处理过程包括:
将视频数据集中当前帧ERP图像ERP2及其前一帧ERP图像ERP1和后一帧ERP图像ERP3输入到特征提取网络中,提取得到该三帧图像的球面特征E1、E2、E3,对所得球面特征E1、E2、E3进行基于时空自注意力机制的特征再提取,对再提取得到的特征进行解码后输出,其中,所述特征提取网络为包含4个球面卷积块的球形编码器网络(SphereNet),每个球面卷积块包含1个球面卷积层(Sphere Convolution)和1个激活层(Relu),所述解码通过3个球形卷积解码器实现,每个球形卷积解码器含有1个上采样层、1个球面卷积层(SphereConvolution)和1个激活层(Relu);所述输出通过输出层实现,所述输出层为一个卷积核尺寸1*1的卷积层。
根据本发明的一些优选实施方式,所述基于时空自注意力机制的再提取的过程如下:
其中,{E1,E2,E3}=SphereNet({ERP1,ERP2,ERP3})三帧ERP图像ERP1、ERP2、ERP3输入到球形卷积编码器网络(SphereNet)提取得到的球面特征;Flat{}表示将输入的张量展平为矩阵,dFlat{}表示其逆过程;⊙表示逐元素矩阵乘法运算;Conv()表示卷积处理;表示展平后的特征矩阵,其通过将ERP1、ERP2、ERP3输入到特征提取网络得到;/>表示实数矩阵;Softmax()表示使用Softmax函数进行处理,Sigmoid()表示使用Sigmoid函数处理;T表示矩阵转置;{D1,D2,D3}表示再提取得到的特征。
本发明可以不会产生盲区的ERP的注视点收集为基础,通过一系列定制设计抑制视觉失真,并在克服盲区限制后,考虑到注视点可能会频繁地从一个位置转移到另一个远距离位置,即注视点转移现象,进一步使用简单而有效的预测模型设计处理该问题,获得准确的预测结果。
相对于现有技术中基于HMD的注视往往会被困在局部事件中的情况,或现有的基于短期时空一致性始终存在假设的时空注视预测方法不能很好地处理注视转移问题,本发明的方法收集的注视点可以快速转移到突然的变化上,获得更好的预测效果。
相对于现有的基于LSTM的预测模型在面对注视转移时,因连续帧之间的注视重叠不存在,模型会显著退化的情况,本发明的预测模型具有更稳健、可靠的预测效果。
附图说明
图1为具体实施方式中所述全景视频注视数据收集方法的工作流程示意图。
图2为具体实施例中视频数据集构建时对图像的处理过程示意图。
图3为具体实施方式中所述注视点预测模型的结构示意图。
图4为具体实施例中不同方式得到的注视点效果对比。
具体实施方式
下面将结合本发明的实施例和附图,对本发明中的技术方案进行进一步地描述。以下所描述的实施例仅是本发明的一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应属于本发明保护的范围。
参照附图1,本发明所述的无头显和无失真的全景视频注视点预测方法的一些具体实施方式包括如下步骤:
S0获得全景场景的平面等距柱状投影图像,即其ERP图像。
S1进行多点投影。即将所述ERP图像投影至球体上,形成其球体投影图像,将所述球体投影图像划分为若干子区域,将每个子区域内的球体投影图像即子区域球体投影图像进行平面投影,得到各子区域的2D投影图像,将所得各子区域的2D投影图像按其在ERP图像中的对应位置进行对齐组合,得到所述ERP图像的多点2D投影图像。
在一些更具体的实施方式中,S1可进一步包括:
S11将所述ERP图像通过等距投影(ERP)的逆投影到一个球体上,获得球体投影图像。
S12自所述球体投影图像的球体极点开始,通过经向划分线和纬向划分线将球体划分为多个不重叠的子区域,得到各子区域球体投影图像SubSphere。
在优选的实施方式中,划分中可设置相邻经向划分线之间的跨度为30°,相邻纬向划分线之间的跨度为30°,则共划分为(360°/30°)×(180°/30°)=72个子区域SubSphere。
S13将各子区域球体投影图像SubSphere通过局部平面投影方法投影到2D空间,得到其2D投影图像Sub2D;
S14将各子区域的2D投影图像Sub2D按其在ERP图像中的对应位置进行对齐组合,得到ERP图像的多点2D投影图像ERPsub。
以上过程可表示:
其中,表示投影处理,/>代表每间隔30o进行一次区域划分,Align(·)表示位置对齐处理,(·)Sub2D表示基于子区域2D投影图像Sub2D进行处理。
通过以上过程获得的ERPsub图像中的每个对齐区域的Sub2D图像都无失真。但其投影ERP图像仍包含多个其他问题,例如,全景极中的幻影效应,以及相邻子区域周围的大量错位。
本发明的以上过程充分考虑到通过ERP表示全景图像可保留良好的整体信息,但存在失真问题,特别是靠近顶部和底部区域时,失真程度会变得更加剧烈,而另一方面,尽管注视时人眼具有相对较大的视野范围,约124°,但其聚焦范围仅为约25°,因此,通过以上多点投影方式,本发明可首先消除基于ERP的注视采集时的小区域失真问题,将极点周围的严重失真问题留给后续步骤进行处理。
S2对所述多点2D投影图像的各子区域进行加窗格处理,获得其窗格图像。
步骤S2的具体操作可如在每个子区域Sub2D周边加黑色格子(即将Sub2D周围一圈的像素值置为0,即将拼接产生的不连续区域置为0),将拼接的区域遮盖。
步骤S2可进一步表示为:
其中,代表对ERPsub上每个子区域Sub2D应用窗格,(·)Sub2D表示基于子区域2D投影图像Sub2D进行处理,ERPwind表示所述窗格图像。
本发明的以上过程通过在ERPsub图像上的每个区域施加一个四周为黑色(即,将Sub2D区域周边的像素值置为0)的格子,即窗格,将关注点自错位引起的视觉伪影转移至窗格内(即,自错位引起的视觉伪影位置---Sub2D区域周边的值置为0),同时,虽然窗口屏幕可能会遮挡一些图像内容,但由于POV(Persistence ofVision)现象的影响,ERPsub上下文仍然可以被人类视觉系统保留和感知,可以有效缓解错位问题,同时极大地减少了每个子区域Sub2D中存在的伪影。
S3对所述窗格图像ERPwind(即,将Sub2D,区域周边的像素值置为0)除中心两行之外的所有子区域的2D投影图像Sub2D进行自窗格中心向窗格边缘的渐变的高斯模糊处理,渐变的方式为中心区域的高斯函数为0,也就是不进行高斯模糊,随着逐步向窗格边缘靠近,高斯函数的值逐渐增大,在窗格边缘处高斯函数值最大,模糊最严重,得到模糊处理后的图像ERPsmooth。
更具体的,其中渐变的高斯模糊处理可使每个Sub2D中,越靠近窗格边缘的地方,图像模糊程度越高。
当所得窗格图像共有6行时,步骤S3可进一步表示为:
其中,表示对ERPwind图像中1、2、5、6行的子区域Sub2D进行高斯模糊处理。
通过以上处理,本发明模糊了除中心两行之外(即第3、4行)的所有子区域的相邻区域,进一步减轻了由错位引起的视觉伪影。图像ERPwind水平相邻区域相应地模糊,其中顶部和底部行比其他行更模糊,而保留失真度最低的中间两行不变,使ERP可以在中心行(即第2-5行)周围有更少的视觉伪影。
S4对所得模糊处理后的图像ERPsmooth进行辅助窗口覆盖,得到使用辅助窗口后的图像ERPAuxW。
在一个具体的实施例中,ERPsmooth图像中共有72(6行,12列)个子区域,通过六个辅助窗口(AuxiliaryWindow,AuxW),在ERPsmooth图像上下两侧各3个对ERPsmooth图像中的子区域进行覆盖,每个窗口AuxW覆盖{4+0.5×4}个子区域Sub2D。也就是说,这些子区域Sub2D的球体内容SubSphere被联合投影到六个辅助窗口AuxW形成的2D空间上,详细的描述为,将所得每个窗口AuxW的球体投影图像按其在ERP图像中的对应位置进行对齐组合得到ERPAuxW。
以上过程可表示为:
其中,AuxWSubSphere→Sub2D(·)表示将Sub2D的球体内容SubSphere联合投影到2D空间,代表基于辅助窗口覆盖区域Sub2D进行处理。
与之前的球体到二维投影相比,本步骤的在这里使用了联合投影,比之前的基于子区域的投影包含更多信息。采用的辅助窗口AuxW方案具有多重优势。首先,它很好地处理了全景极点周围的重影效果。其次,采用的辅助窗口AuxW可以很好地呈现全景极的上下文信息,没有任何失真。
S5对所得使用辅助窗口后的图像ERPAuxW进行动态模糊(Dynamic Blur,DB)处理,获得其动态模糊图像ERPDB。
在一些更具体的实施方式中,所述动态模糊包括:在视点收集开始时,所有辅助窗口AuxW都使用高斯平滑模糊,高斯平滑的具体参数为:σ=0,通过OpenCV GaussianBlur函数自动计算高斯方差,高斯窗口大小=30。
其后,在观察者注视点收集过程中,如果观察者的注视轨迹扫过辅助窗口AuxW,则模糊的辅助窗口AuxW将由模糊状态立即变得清晰。为了防止观察者眼动注视点一直困在辅助窗口AuxW中,辅助窗口AuxW的清晰状态不会持续很长时间。如果观察者的注视点保持在视点的相对局部空间内,逐渐将其再次模糊(大约需要2~3秒)。这样,所采用的辅助窗口可以方便地进行视点收集,并且没有明显的副作用。
其中,动态模糊图像ERPDB的获得可表示为:
其中,DB(·)代表高斯平滑动态模糊,表示基于辅助窗口覆盖区域Sub2D进行处理。
本发明的以上步骤可避免进行视点收集时,视点陷入辅助窗口中。
S6基于S1-S5的处理过程,构建进行全景视频注意视点学习的视频数据集。
在一些更具体的实施方式中,参照附图2,该视频数据集的构建可包括:
S61自视频集中获得若干高质量的视频帧图像;
S62将各高质量的视频帧图像分别进行ERP投影,获得其对应的ERP图像;
S63通过步骤S1-S5的过程对S62得到的各ERP图像进行处理,获得其对应的动态模糊图像;
S64将S63得到的各动态模糊图像按其在原视频中的对应位置关系合成新的视频,由各新视频组成所述视频数据集。
在一个具体实施例中,本发明采用了如下过程进行视频数据集构建:
在收集的400个视频片段中,删除具有简单背景、简单动作或低分辨率的场景等情况的100个低质量的片段,保留了300个优质的视频片段,这些片段涵盖了225个语义类别。
对所得300个优质视频片段进行S61-S64的处理,得到大型视频数据集PanopticVideo-300,如下:
其中,Clips300表示保留的300个优质视频片段,表示将视频提取为ERP图片,/>表示通过S1-S5的过程处理ERP图片,/>代表将图像合成视频。其中,ERP图像的提取及视频的合成通过在opencv中调用cv2.VideoCapture和cv2.VideoWriter实现。
相对于现有技术中,不使用包含快速物体运动的视频片段进行数据集构建的形式,本发明的注视点数据收集无需使用HMD方法,可使用含有快速运动物体的视频片段。
S7基于S6的视频数据集,通过注视点预测模型进行注视点预测学习,获得注视点预测图。
进一步的,参照附图3,本发明的一种具体的注视点预测模型包括:
进行视频数据集中当前帧图像及其前一帧图像和后一帧图像输入的输入层,对输入的帧图像进行球面特征提取的特征提取网络,对提取得到的球面特征进行基于时空自注意力机制的特征再提取,对再提取得到的特征进行解码的三个球形卷积解码器及输出结果的输出层,其中,特征提取网络为包含4个球面卷积块的球形编码器网络,每个球面卷积块包含1个球面卷积层和1个激活层,每个球形卷积解码器含有1个上采样层、1个球面卷积层和1个激活层,输出层含有一个卷积核尺寸为1*1的卷积层,可将特征降低维度为1通道。
在以上预测模型中,本发明引入了时空自注意力机制,可让模型感知到远距离信息,很好地解决注视点可能在很短的时间内转移到另一远距离位置的注视转移问题。
在一个具体实施例中,基于以上注视点预测模型获得注视点预测图的过程如下:
通过球形卷积编码器对输入的三个未经过任何处理的原始ERP图像进行特征提取,如下:{E1,E2,E3}=SphereNet({ERP1,ERP2,ERP3})
其中,{ERP1,ERP2,ERP3}表示输入为PanopticVideo-300数据集中随机挑选的一段视频中的三帧,SphereNet(·)表示经球形卷积编码器处理,{E1,E2,E3}为{ERP1,ERP2,ERP3}提取的特征,其为大小为[256,23,12]的张量;
对提取得到的球面特征进行基于时空自注意力机制的再提取,如下:
其中,Flat{}表示将输入的张量展平为矩阵,dFlat{}表示其逆过程;⊙表示逐元素矩阵乘法运算;Conv()表示卷积处理;表示展平后的特征矩阵,通过将ERP1、ERP2、ERP3输入到特征提取网络得到;/>表示实数矩阵;Softmax()表示使用Softmax函数进行处理;Sigmoid()表示使用Sigmoid函数处理,T表示矩阵转置;{D1,D2,D3}表示再提取得到的特征,其为大小为[256,23,12]的张量。
根据再提取得到的特征获得注视点预测图,如下:
{O1,O2,O3}=ReadOut({D1,D2,D3})
其中,{O1,O2,O3}表示输出的视点注视预测图,ReadOut(·)表示经球形解码器处理。
本发明的以上步骤实现简单高效,在处理注视转移引起的长距离依赖问题方面非常有效,其与HMD中注视点的收集的对比如附图4所示。
需要说明的是,以上所述仅为本发明的优选实施例,其不应限制本发明的技术方案保护范围。凡在本发明的精神和原则之内,本领域的普通技术人员对前述各实施例所记载的技术方案进行的修改,对技术特征进行的等同替换等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种无头显和无失真的全景视频注视点预测方法,其特征在于,其包括:
S1获得全景场景的平面等距柱状投影图像,即其ERP图像,将所述ERP图像投影至球体上,形成其球体投影图像,将所述球体投影图像划分为若干子区域,将每个子区域内的球体投影图像即子区域球体投影图像进行平面投影,得到各子区域的2D投影图像即子区域图像,将所述子区域图像按其在ERP图像中的对应位置进行对齐组合,得到所述ERP图像的多点2D投影图像ERPsub;
S2对所述多点2D投影图像中各子区域图像进行加窗格处理,即将各子区域图像的周围像素值置为0,并按其在ERP图像中的对应位置进行对齐组合,获得窗格图像ERPwind;
S3对所述窗格图像ERPwind除中心区域之外的所有子区域图像进行自窗格中心向窗格边缘的渐变的高斯模糊处理,越靠近窗格边缘的地方模糊程度越高,得到模糊处理后的子区域图像,并按其在ERP图像中的对应位置进行对齐组合,得到模糊处理后的图像ERPsmooth;
S4对所述模糊处理后的图像ERPsmooth的各子区域进行辅助窗口覆盖,得到使用辅助窗口后的图像ERPAuxw;
S5对所述使用辅助窗口后的图像ERPAuxW的各子区域进行动态模糊处理,获得其动态模糊图像ERPDB;
S6基于S1-S5的处理过程,构建进行全景视频注意视点学习的视频数据集;
S7通过所述视频数据集进行注视点预测模型训练,由训练完成后的预测模型获得注视点预测图;
其中,所述S1进一步包括:
S11通过逆等距投影法将所述ERP图像投影到一个球体上,获得其球体投影图像;
S12自所述球体投影图像的球体极点开始,通过经向划分线和纬向划分线将球体划分为多个不重叠的子区域,得到各子区域球体投影图像SubSphere;
S13通过多点2D投影将各子区域球体投影图像SubSphere投影至2D空间,得到其2D投影图像Sub2D;
S14将各子区域的2D投影图像Sub2D按其在ERP图像中的对应位置进行对齐组合,得到所述多点2D投影图像ERPsub;
所述S6中视频数据集的构建包括:
S61自视频集中获得若干高质量的视频帧图像;
S62将各高质量的视频帧图像分别进行ERP投影,获得其对应的ERP图像;
S63通过步骤S1-S5的过程对S62得到的各ERP图像进行处理,获得其对应的动态模糊图像;
S64将S63得到的各动态模糊图像按其在原视频中的对应位置关系合成新的视频,由各新视频组成所述视频数据集。
2.根据权利要求1所述的预测方法,其特征在于,所述划分中设置相邻经向划分线之间的跨度为30°,相邻纬向划分线之间的跨度为30°。
3.根据权利要求1所述的预测方法,其特征在于,所述模糊处理中,设置所述中心区域为图像中间两行的子区域范围。
4.根据权利要求1所述的预测方法,其特征在于,所述辅助窗口覆盖中,设置每个辅助窗口具有相同数量的子区域覆盖范围,总的辅助窗口数量为6个。
5.根据权利要求1所述的预测方法,其特征在于,所述动态模糊使用高斯平滑模糊。
6.根据权利要求1所述的预测方法,其特征在于,所述注视点预测模型的处理过程包括:
将视频数据集中当前帧ERP图像ERP2及其前一帧ERP图像ERP1和后一帧ERP图像ERP3输入到特征提取网络中,提取得到该三帧图像的球面特征E1、E2、E3,对所得球面特征E1、E2、E3进行基于时空自注意力机制的特征再提取,对再提取得到的特征进行解码后输出,其中,所述特征提取网络为包含4个球面卷积块的球形编码器网络,每个球面卷积块包含1个球面卷积层和1个激活层,所述解码通过3个球形卷积解码器实现,每个球形卷积解码器含有1个上采样层、1个球面卷积层和1个激活层;所述输出通过输出层实现,所述输出层为一个卷积核尺寸1*1的卷积层。
7.根据权利要求6所述的预测方法,其特征在于,所述基于时空自注意力机制的再提取的过程如下:
其中,{E1,E2,E3}=SphereNet({ERP1,ERP2,ERP3})表示图像ERP1、ERP2、ERP3输入到球形编码器网络后提取得到的所述球面特征;Flat{}表示将输入的张量展平为矩阵,dFlat{}表示其逆过程;⊙表示逐元素矩阵乘法运算;Conv()表示卷积处理;表示展平后的特征矩阵;/>表示实数矩阵;Softmax()表示使用Softmax函数进行处理,Sigmoid()表示使用Sigmoid函数处理;T表示矩阵转置;{D1,D2,D3}表示再提取得到的特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311035700.XA CN117036154B (zh) | 2023-08-17 | 2023-08-17 | 一种无头显和无失真的全景视频注视点预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311035700.XA CN117036154B (zh) | 2023-08-17 | 2023-08-17 | 一种无头显和无失真的全景视频注视点预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117036154A CN117036154A (zh) | 2023-11-10 |
CN117036154B true CN117036154B (zh) | 2024-02-02 |
Family
ID=88602009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311035700.XA Active CN117036154B (zh) | 2023-08-17 | 2023-08-17 | 一种无头显和无失真的全景视频注视点预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117036154B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108924554A (zh) * | 2018-07-13 | 2018-11-30 | 宁波大学 | 一种球形加权结构相似度的全景视频编码率失真优化方法 |
CN110612553A (zh) * | 2017-05-09 | 2019-12-24 | 皇家Kpn公司 | 对球面视频数据进行编码 |
CN110827193A (zh) * | 2019-10-21 | 2020-02-21 | 国家广播电视总局广播电视规划院 | 基于多通道特征的全景视频显著性检测方法 |
AU2020101435A4 (en) * | 2020-07-21 | 2020-08-27 | Southwest University | A panoramic vision system based on the uav platform |
CN113038123A (zh) * | 2021-03-22 | 2021-06-25 | 上海大学 | 无参考全景视频质量评价方法、系统、终端及介质 |
CN115147819A (zh) * | 2022-07-07 | 2022-10-04 | 西安电子科技大学 | 基于注视点预测模型的驾驶员注视点预测方法 |
CN115631121A (zh) * | 2022-10-31 | 2023-01-20 | 电子科技大学 | 一种基于自监督学习的全景图像显著性预测方法 |
CN116185179A (zh) * | 2022-12-29 | 2023-05-30 | 浙江工业大学 | 基于众包眼动数据的全景图视觉显著性预测方法和系统 |
CN116263874A (zh) * | 2021-12-13 | 2023-06-16 | 罗伯特·博世有限公司 | 用于经由无失真cnn和球形自注意力的针对机器感知任务的全方向密集回归的方法 |
CN116542889A (zh) * | 2023-05-06 | 2023-08-04 | 电子科技大学 | 一种拥有稳定视点的全景视频增强方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018154130A1 (en) * | 2017-02-27 | 2018-08-30 | Koninklijke Kpn N.V. | Processing spherical video data |
US20180338160A1 (en) * | 2017-05-18 | 2018-11-22 | Mediatek Inc. | Method and Apparatus for Reduction of Artifacts in Coded Virtual-Reality Images |
-
2023
- 2023-08-17 CN CN202311035700.XA patent/CN117036154B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110612553A (zh) * | 2017-05-09 | 2019-12-24 | 皇家Kpn公司 | 对球面视频数据进行编码 |
CN108924554A (zh) * | 2018-07-13 | 2018-11-30 | 宁波大学 | 一种球形加权结构相似度的全景视频编码率失真优化方法 |
CN110827193A (zh) * | 2019-10-21 | 2020-02-21 | 国家广播电视总局广播电视规划院 | 基于多通道特征的全景视频显著性检测方法 |
AU2020101435A4 (en) * | 2020-07-21 | 2020-08-27 | Southwest University | A panoramic vision system based on the uav platform |
CN113038123A (zh) * | 2021-03-22 | 2021-06-25 | 上海大学 | 无参考全景视频质量评价方法、系统、终端及介质 |
CN116263874A (zh) * | 2021-12-13 | 2023-06-16 | 罗伯特·博世有限公司 | 用于经由无失真cnn和球形自注意力的针对机器感知任务的全方向密集回归的方法 |
CN115147819A (zh) * | 2022-07-07 | 2022-10-04 | 西安电子科技大学 | 基于注视点预测模型的驾驶员注视点预测方法 |
CN115631121A (zh) * | 2022-10-31 | 2023-01-20 | 电子科技大学 | 一种基于自监督学习的全景图像显著性预测方法 |
CN116185179A (zh) * | 2022-12-29 | 2023-05-30 | 浙江工业大学 | 基于众包眼动数据的全景图视觉显著性预测方法和系统 |
CN116542889A (zh) * | 2023-05-06 | 2023-08-04 | 电子科技大学 | 一种拥有稳定视点的全景视频增强方法 |
Non-Patent Citations (2)
Title |
---|
Panoramic_video_live_broadcasting_system_based_on_global_distribution;Jiangeng Li;《2019 Chinese Automation Congress(CAC)》;第64-67页 * |
基于OpenGL的交互式全景视频显示系统;周凡;张伟;杨付正;;液晶与显示(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117036154A (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dong et al. | Multi-scale boosted dehazing network with dense feature fusion | |
Jo et al. | Deep video super-resolution network using dynamic upsampling filters without explicit motion compensation | |
US20210241470A1 (en) | Image processing method and apparatus, electronic device, and storage medium | |
DE102020123304A1 (de) | Tiefes lernen für engmaschige semantische segmentierung in video mit automatisierter interaktivität und verbesserter zeitlicher kohärenz | |
CN110827193B (zh) | 基于多通道特征的全景视频显著性检测方法 | |
An et al. | Single-shot high dynamic range imaging via deep convolutional neural network | |
Keller et al. | Video super-resolution using simultaneous motion and intensity calculations | |
Zhang et al. | Cross-frame transformer-based spatio-temporal video super-resolution | |
Kwon et al. | Dale: Dark region-aware low-light image enhancement | |
Cheng et al. | A dual camera system for high spatiotemporal resolution video acquisition | |
Yan et al. | High dynamic range imaging via gradient-aware context aggregation network | |
WO2021179764A1 (zh) | 图像处理模型生成方法、处理方法、存储介质及终端 | |
CN104820966B (zh) | 一种空时配准解卷积的非同步多视频超分辨率方法 | |
DE102021119882A1 (de) | Videohintergrundschätzung unter verwendung von räumlich-zeitlichen modellen | |
Rasheed et al. | LSR: Lightening super-resolution deep network for low-light image enhancement | |
CN112750092A (zh) | 训练数据获取方法、像质增强模型与方法及电子设备 | |
CN114494050A (zh) | 一种基于事件相机的自监督视频去模糊和图像插帧方法 | |
CN117036154B (zh) | 一种无头显和无失真的全景视频注视点预测方法 | |
US20230325974A1 (en) | Image processing method, apparatus, and non-transitory computer-readable medium | |
Cui et al. | Multi-stream attentive generative adversarial network for dynamic scene deblurring | |
Yuan et al. | Learning to kindle the starlight | |
CN115984124A (zh) | 一种神经形态脉冲信号去噪和超分辨方法及装置 | |
Guo et al. | No-reference omnidirectional video quality assessment based on generative adversarial networks | |
Yue et al. | Hdr video reconstruction with a large dynamic dataset in raw and srgb domains | |
Tokimoto et al. | A novel super-resolution display technique by use of spatiotemporal coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |