CN117036154B

CN117036154B - 一种无头显和无失真的全景视频注视点预测方法

Info

Publication number: CN117036154B
Application number: CN202311035700.XA
Authority: CN
Inventors: 陈程立诏; 王国涛; 李潞铭; 宋梦柯; 宋佳; 胡诗语; 赵一汎; 王子铭; 张明月; 杨龙燕; 崔爽锌; 薛子玥; 卢博; 梁少峰; 刘新宇; 朱晓东; 尹涵冰; 张钰; 袁千禧; 刘伊凡
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2023-08-17
Filing date: 2023-08-17
Publication date: 2024-02-02
Anticipated expiration: 2043-08-17
Also published as: CN117036154A

Abstract

本发明公开了一种无头显和无失真的全景视频注视点预测方法。所述预测方法包括：将全景视频的ERP图像依次进行球体投影、球体划分、子区域平面投影，获得其多点2D投影图像，将多点2D投影图像进一步进行加窗格处理、非中心区域模糊处理、辅助窗口覆盖、动态模糊处理，得到其动态模糊图像，其后根据动态模糊图像构建的视频数据集对注视点预测模型进行训练，由训练完成后的预测模型获得注视点预测图。本发明不需要头戴式显示器、无视觉盲区，图像无失真现象，且可充分处理注意转移的现象，得到准确、稳健地预测效果。

Description

一种无头显和无失真的全景视频注视点预测方法

技术领域

本发明属于图像处理与计算机视觉的技术领域，尤其涉及全景视频注视预测方法的技术领域。

背景技术

与受到广泛研究关注的传统二维图像注视点预测不同，全景注视预测需要快速定位全景场景中最重要的区域，预测难度和复杂度极大地提高了，但由于现有的关于全景视频注视点数据的大规模数据集极为缺乏，导致全景注视预测的技术进展缓慢。

在获取全景场景注视点数据的方式中，基于头戴式显示器(HMD)的人眼注视收集是目前最流行的方法，由参与者佩戴头戴式显示器自由探索给定的全景场景，同时收集其注视点相关数据。但该方法中，采用头戴式显示器进行注视时总是存在视觉盲区，无法依靠参与者的头部旋转获得整个全景场景的探索情况，参与者在探索全景场景时通常也会感到非常不舒服，影响实际的注视数据，同时，采用头戴式显示器的注视收集成本也较为昂贵，无法推广应用。

在基于头戴式显示器的人眼注视收集方法之外，另一种被提出的方法是通过平面等距柱状投影(ERP)将全景场景(典型的球形数据)投影到2D平面，再使用与二维图像相关的研究方法。但由于基于ERP的2D投影图像会产生严重的视觉扭曲，特别是图像中两极周围的区域，该方法并不适合于实际的人眼注视采集。

发明内容

针对现有技术的缺陷，本发明的目的在于提出一种新的全景注视点预测方法，该方法可克服现有的如基于头戴式显示器(HMD)和基于平面等距柱状投影(ERP)的注视点预测的缺陷，快速、准确地获得大量无无头显和无失真的全景视频注视数据。

本发明的技术方案如下：

一种无头显和无失真的全景视频注视点预测方法，其包括：

S1获得全景场景的平面等距柱状投影图像，即其ERP图像，将所述ERP图像投影至球体上，形成其球体投影图像，将所述球体投影图像划分为若干子区域，将每个子区域内的球体投影图像即子区域球体投影图像进行平面投影，得到各子区域的2D投影图像Sub_2D，将所得各子区域的2D投影图像按其在ERP图像中的对应位置进行对齐组合，得到所述ERP图像的多点2D投影图像ERPsub；

S2对所述多点2D投影图像ERPsub中各子区域图像进行加窗格处理，并按其在ERP图像中的对应位置进行对齐组合，获得窗格图像ERP_wind；

S3对所述窗格图像ERP_wind除中心区域之外的所有子区域图像进行自窗格中心向窗格边缘的渐变的高斯模糊处理，越靠近窗格边缘的地方模糊程度越高，得到模糊处理后的子区域图像，并按其在ERP图像中的对应位置进行对齐组合，得到模糊处理后的图像ERP_smooth；

S4对所述模糊处理后的图像ERP_smooth的各子区域图像进行辅助窗口覆盖，得到使用辅助窗口后的图像ERP_AuxW；

S5对所述使用辅助窗口后的图像ERP_AuxW的各子区域图像进行动态模糊处理，获得其动态模糊图像ERP_DB；

S6基于S1-S5的处理过程，构建进行全景视频注意视点学习的视频数据集；

S7通过所述视频数据集进行注视点预测模型训练，由训练完成后的预测模型获得注视点预测图。

根据本发明的一些优选实施方式，S3中所述渐变的高斯模糊处理包括：设置中心区域的高斯函数为0，即对其不进行高斯模糊，并设置向窗格边缘区域靠近的高斯函数的值逐渐增大，在窗格边缘处达到最大。

根据本发明的一些优选实施方式，所述S1进一步包括：

S11通过逆等距投影法将所述ERP图像投影到一个球体上，获得其球体投影图像；

S12自所述球体投影图像的球体极点开始，通过经向划分线和纬向划分线将球体划分为多个不重叠的子区域，得到各子区域球体投影图像SubSphere；

S13通过多点2D投影将各子区域球体投影图像SubSphere投影至2D空间，得到其2D投影图像Sub2D；

S14将各子区域的2D投影图像Sub2D按其在ERP图像中的对应位置进行对齐组合，得到所述多点2D投影图像ERPsub；

其中，所述逆等距投影法即等距投影法的逆变换。

根据本发明的一些优选实施方式，所述划分中设置相邻经向划分线之间的跨度为30°，相邻纬向划分线之间的跨度为30°。

根据本发明的一些优选实施方式，所述模糊处理中，设置所述中心区域为图像中间两行的子区域范围。

根据本发明的一些优选实施方式，所述辅助窗口覆盖中，设置每个辅助窗口具有相同数量的子区域(Sub2D)覆盖范围，总的辅助窗口数量为6个。

根据本发明的一些优选实施方式，所述动态模糊使用高斯平滑模糊。

根据本发明的一些优选实施方式，所述视频数据集的构建包括：

S61自视频集中获得若干高质量的视频帧图像；

S62将各高质量的视频帧图像分别进行ERP投影，获得其对应的ERP图像；

S63通过步骤S1-S5的过程对S62得到的各ERP图像进行处理，获得其对应的动态模糊图像；

S64将S63得到的各动态模糊图像按其在原视频中的对应位置关系合成新的视频，由各新视频组成所述视频数据集。

根据本发明的一些优选实施方式，所述注视点预测模型的处理过程包括：

将视频数据集中当前帧ERP图像ERP₂及其前一帧ERP图像ERP₁和后一帧ERP图像ERP₃输入到特征提取网络中，提取得到该三帧图像的球面特征E₁、E₂、E₃，对所得球面特征E₁、E₂、E₃进行基于时空自注意力机制的特征再提取，对再提取得到的特征进行解码后输出，其中，所述特征提取网络为包含4个球面卷积块的球形编码器网络(SphereNet)，每个球面卷积块包含1个球面卷积层(Sphere Convolution)和1个激活层(Relu)，所述解码通过3个球形卷积解码器实现，每个球形卷积解码器含有1个上采样层、1个球面卷积层(SphereConvolution)和1个激活层(Relu)；所述输出通过输出层实现，所述输出层为一个卷积核尺寸1*1的卷积层。

根据本发明的一些优选实施方式，所述基于时空自注意力机制的再提取的过程如下：

其中，{E₁，E₂，E₃}＝SphereNet({ERP₁，ERP₂，ERP₃})三帧ERP图像ERP₁、ERP₂、ERP₃输入到球形卷积编码器网络(SphereNet)提取得到的球面特征；Flat{}表示将输入的张量展平为矩阵，dFlat{}表示其逆过程；⊙表示逐元素矩阵乘法运算；Conv()表示卷积处理；表示展平后的特征矩阵，其通过将ERP₁、ERP₂、ERP₃输入到特征提取网络得到；/>表示实数矩阵；Softmax()表示使用Softmax函数进行处理，Sigmoid()表示使用Sigmoid函数处理；T表示矩阵转置；{D₁，D₂，D₃}表示再提取得到的特征。

本发明可以不会产生盲区的ERP的注视点收集为基础，通过一系列定制设计抑制视觉失真，并在克服盲区限制后，考虑到注视点可能会频繁地从一个位置转移到另一个远距离位置，即注视点转移现象，进一步使用简单而有效的预测模型设计处理该问题，获得准确的预测结果。

相对于现有技术中基于HMD的注视往往会被困在局部事件中的情况，或现有的基于短期时空一致性始终存在假设的时空注视预测方法不能很好地处理注视转移问题，本发明的方法收集的注视点可以快速转移到突然的变化上，获得更好的预测效果。

相对于现有的基于LSTM的预测模型在面对注视转移时，因连续帧之间的注视重叠不存在，模型会显著退化的情况，本发明的预测模型具有更稳健、可靠的预测效果。

附图说明

图1为具体实施方式中所述全景视频注视数据收集方法的工作流程示意图。

图2为具体实施例中视频数据集构建时对图像的处理过程示意图。

图3为具体实施方式中所述注视点预测模型的结构示意图。

图4为具体实施例中不同方式得到的注视点效果对比。

具体实施方式

下面将结合本发明的实施例和附图，对本发明中的技术方案进行进一步地描述。以下所描述的实施例仅是本发明的一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应属于本发明保护的范围。

参照附图1，本发明所述的无头显和无失真的全景视频注视点预测方法的一些具体实施方式包括如下步骤：

S0获得全景场景的平面等距柱状投影图像，即其ERP图像。

S1进行多点投影。即将所述ERP图像投影至球体上，形成其球体投影图像，将所述球体投影图像划分为若干子区域，将每个子区域内的球体投影图像即子区域球体投影图像进行平面投影，得到各子区域的2D投影图像，将所得各子区域的2D投影图像按其在ERP图像中的对应位置进行对齐组合，得到所述ERP图像的多点2D投影图像。

在一些更具体的实施方式中，S1可进一步包括：

S11将所述ERP图像通过等距投影(ERP)的逆投影到一个球体上，获得球体投影图像。

S12自所述球体投影图像的球体极点开始，通过经向划分线和纬向划分线将球体划分为多个不重叠的子区域，得到各子区域球体投影图像Sub_Sphere。

在优选的实施方式中，划分中可设置相邻经向划分线之间的跨度为30°，相邻纬向划分线之间的跨度为30°，则共划分为(360°/30°)×(180°/30°)＝72个子区域Sub_Sphere。

S13将各子区域球体投影图像Sub_Sphere通过局部平面投影方法投影到2D空间，得到其2D投影图像Sub_2D；

S14将各子区域的2D投影图像Sub_2D按其在ERP图像中的对应位置进行对齐组合，得到ERP图像的多点2D投影图像ERP_sub。

以上过程可表示：

其中，表示投影处理，/>代表每间隔30o进行一次区域划分，Align(·)表示位置对齐处理，(·)_Sub2D表示基于子区域2D投影图像Sub_2D进行处理。

通过以上过程获得的ERP_sub图像中的每个对齐区域的Sub_2D图像都无失真。但其投影ERP图像仍包含多个其他问题，例如，全景极中的幻影效应，以及相邻子区域周围的大量错位。

本发明的以上过程充分考虑到通过ERP表示全景图像可保留良好的整体信息，但存在失真问题，特别是靠近顶部和底部区域时，失真程度会变得更加剧烈，而另一方面，尽管注视时人眼具有相对较大的视野范围，约124°，但其聚焦范围仅为约25°，因此，通过以上多点投影方式，本发明可首先消除基于ERP的注视采集时的小区域失真问题，将极点周围的严重失真问题留给后续步骤进行处理。

S2对所述多点2D投影图像的各子区域进行加窗格处理，获得其窗格图像。

步骤S2的具体操作可如在每个子区域Sub_2D周边加黑色格子(即将Sub_2D周围一圈的像素值置为0，即将拼接产生的不连续区域置为0)，将拼接的区域遮盖。

步骤S2可进一步表示为：

其中，代表对ERP_sub上每个子区域Sub_2D应用窗格，(·)_Sub2D表示基于子区域2D投影图像Sub_2D进行处理，ERP_wind表示所述窗格图像。

本发明的以上过程通过在ERP_sub图像上的每个区域施加一个四周为黑色(即，将Sub_2D区域周边的像素值置为0)的格子，即窗格，将关注点自错位引起的视觉伪影转移至窗格内(即，自错位引起的视觉伪影位置---Sub_2D区域周边的值置为0)，同时，虽然窗口屏幕可能会遮挡一些图像内容，但由于POV(Persistence ofVision)现象的影响，ERP_sub上下文仍然可以被人类视觉系统保留和感知，可以有效缓解错位问题，同时极大地减少了每个子区域Sub_2D中存在的伪影。

S3对所述窗格图像ERP_wind(即，将Sub_2D，区域周边的像素值置为0)除中心两行之外的所有子区域的2D投影图像Sub_2D进行自窗格中心向窗格边缘的渐变的高斯模糊处理，渐变的方式为中心区域的高斯函数为0，也就是不进行高斯模糊，随着逐步向窗格边缘靠近，高斯函数的值逐渐增大，在窗格边缘处高斯函数值最大，模糊最严重，得到模糊处理后的图像ERP_smooth。

更具体的，其中渐变的高斯模糊处理可使每个Sub_2D中，越靠近窗格边缘的地方，图像模糊程度越高。

当所得窗格图像共有6行时，步骤S3可进一步表示为：

其中，表示对ERP_wind图像中1、2、5、6行的子区域Sub_2D进行高斯模糊处理。

通过以上处理，本发明模糊了除中心两行之外(即第3、4行)的所有子区域的相邻区域，进一步减轻了由错位引起的视觉伪影。图像ERP_wind水平相邻区域相应地模糊，其中顶部和底部行比其他行更模糊，而保留失真度最低的中间两行不变，使ERP可以在中心行(即第2-5行)周围有更少的视觉伪影。

S4对所得模糊处理后的图像ERP_smooth进行辅助窗口覆盖，得到使用辅助窗口后的图像ERP_AuxW。

在一个具体的实施例中，ERP_smooth图像中共有72(6行，12列)个子区域，通过六个辅助窗口(AuxiliaryWindow，AuxW)，在ERP_smooth图像上下两侧各3个对ERP_smooth图像中的子区域进行覆盖，每个窗口AuxW覆盖{4+0.5×4}个子区域Sub_2D。也就是说，这些子区域Sub_2D的球体内容SubSphere被联合投影到六个辅助窗口AuxW形成的2D空间上，详细的描述为，将所得每个窗口AuxW的球体投影图像按其在ERP图像中的对应位置进行对齐组合得到ERP_AuxW。

以上过程可表示为：

其中，AuxW_{SubSphere→Sub2D}(·)表示将Sub_2D的球体内容SubSphere联合投影到2D空间，代表基于辅助窗口覆盖区域Sub_2D进行处理。

与之前的球体到二维投影相比，本步骤的在这里使用了联合投影，比之前的基于子区域的投影包含更多信息。采用的辅助窗口AuxW方案具有多重优势。首先，它很好地处理了全景极点周围的重影效果。其次，采用的辅助窗口AuxW可以很好地呈现全景极的上下文信息，没有任何失真。

S5对所得使用辅助窗口后的图像ERP_AuxW进行动态模糊(Dynamic Blur，DB)处理，获得其动态模糊图像ERP_DB。

在一些更具体的实施方式中，所述动态模糊包括：在视点收集开始时，所有辅助窗口AuxW都使用高斯平滑模糊，高斯平滑的具体参数为：σ＝0，通过OpenCV GaussianBlur函数自动计算高斯方差，高斯窗口大小＝30。

其后，在观察者注视点收集过程中，如果观察者的注视轨迹扫过辅助窗口AuxW，则模糊的辅助窗口AuxW将由模糊状态立即变得清晰。为了防止观察者眼动注视点一直困在辅助窗口AuxW中，辅助窗口AuxW的清晰状态不会持续很长时间。如果观察者的注视点保持在视点的相对局部空间内，逐渐将其再次模糊(大约需要2～3秒)。这样，所采用的辅助窗口可以方便地进行视点收集，并且没有明显的副作用。

其中，动态模糊图像ERP_DB的获得可表示为：

其中，DB(·)代表高斯平滑动态模糊，表示基于辅助窗口覆盖区域Sub_2D进行处理。

本发明的以上步骤可避免进行视点收集时，视点陷入辅助窗口中。

S6基于S1-S5的处理过程，构建进行全景视频注意视点学习的视频数据集。

在一些更具体的实施方式中，参照附图2，该视频数据集的构建可包括：

S61自视频集中获得若干高质量的视频帧图像；

在一个具体实施例中，本发明采用了如下过程进行视频数据集构建：

在收集的400个视频片段中，删除具有简单背景、简单动作或低分辨率的场景等情况的100个低质量的片段，保留了300个优质的视频片段，这些片段涵盖了225个语义类别。

对所得300个优质视频片段进行S61-S64的处理，得到大型视频数据集PanopticVideo-300，如下：

其中，Clips₃₀₀表示保留的300个优质视频片段，表示将视频提取为ERP图片，/>表示通过S1-S5的过程处理ERP图片，/>代表将图像合成视频。其中，ERP图像的提取及视频的合成通过在opencv中调用cv2.VideoCapture和cv2.VideoWriter实现。

相对于现有技术中，不使用包含快速物体运动的视频片段进行数据集构建的形式，本发明的注视点数据收集无需使用HMD方法，可使用含有快速运动物体的视频片段。

S7基于S6的视频数据集，通过注视点预测模型进行注视点预测学习，获得注视点预测图。

进一步的，参照附图3，本发明的一种具体的注视点预测模型包括：

进行视频数据集中当前帧图像及其前一帧图像和后一帧图像输入的输入层，对输入的帧图像进行球面特征提取的特征提取网络，对提取得到的球面特征进行基于时空自注意力机制的特征再提取，对再提取得到的特征进行解码的三个球形卷积解码器及输出结果的输出层，其中，特征提取网络为包含4个球面卷积块的球形编码器网络，每个球面卷积块包含1个球面卷积层和1个激活层，每个球形卷积解码器含有1个上采样层、1个球面卷积层和1个激活层，输出层含有一个卷积核尺寸为1*1的卷积层，可将特征降低维度为1通道。

在以上预测模型中，本发明引入了时空自注意力机制，可让模型感知到远距离信息，很好地解决注视点可能在很短的时间内转移到另一远距离位置的注视转移问题。

在一个具体实施例中，基于以上注视点预测模型获得注视点预测图的过程如下：

通过球形卷积编码器对输入的三个未经过任何处理的原始ERP图像进行特征提取，如下：{E₁，E₂，E₃}＝SphereNet({ERP₁，ERP₂，ERP₃})

其中，{ERP₁，ERP₂，ERP₃}表示输入为PanopticVideo-300数据集中随机挑选的一段视频中的三帧，SphereNet(·)表示经球形卷积编码器处理，{E₁，E₂，E₃}为{ERP₁，ERP₂，ERP₃}提取的特征，其为大小为[256,23,12]的张量；

对提取得到的球面特征进行基于时空自注意力机制的再提取，如下：

其中，Flat{}表示将输入的张量展平为矩阵，dFlat{}表示其逆过程；⊙表示逐元素矩阵乘法运算；Conv()表示卷积处理；表示展平后的特征矩阵，通过将ERP₁、ERP₂、ERP₃输入到特征提取网络得到；/>表示实数矩阵；Softmax()表示使用Softmax函数进行处理；Sigmoid()表示使用Sigmoid函数处理，T表示矩阵转置；{D₁，D₂，D₃}表示再提取得到的特征，其为大小为[256,23,12]的张量。

根据再提取得到的特征获得注视点预测图，如下：

{O₁，O₂，O₃}＝ReadOut({D₁，D₂，D₃})

其中，{O₁，O₂，O₃}表示输出的视点注视预测图，ReadOut(·)表示经球形解码器处理。

本发明的以上步骤实现简单高效，在处理注视转移引起的长距离依赖问题方面非常有效，其与HMD中注视点的收集的对比如附图4所示。

需要说明的是，以上所述仅为本发明的优选实施例，其不应限制本发明的技术方案保护范围。凡在本发明的精神和原则之内，本领域的普通技术人员对前述各实施例所记载的技术方案进行的修改，对技术特征进行的等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种无头显和无失真的全景视频注视点预测方法，其特征在于，其包括：

S1获得全景场景的平面等距柱状投影图像，即其ERP图像，将所述ERP图像投影至球体上，形成其球体投影图像，将所述球体投影图像划分为若干子区域，将每个子区域内的球体投影图像即子区域球体投影图像进行平面投影，得到各子区域的2D投影图像即子区域图像，将所述子区域图像按其在ERP图像中的对应位置进行对齐组合，得到所述ERP图像的多点2D投影图像ERP_sub；

S2对所述多点2D投影图像中各子区域图像进行加窗格处理，即将各子区域图像的周围像素值置为0，并按其在ERP图像中的对应位置进行对齐组合，获得窗格图像ERP_wind；

S4对所述模糊处理后的图像ERP_smooth的各子区域进行辅助窗口覆盖，得到使用辅助窗口后的图像ERP_Auxw；

S5对所述使用辅助窗口后的图像ERP_AuxW的各子区域进行动态模糊处理，获得其动态模糊图像ERP_DB；

S7通过所述视频数据集进行注视点预测模型训练，由训练完成后的预测模型获得注视点预测图；

其中，所述S1进一步包括：

S12自所述球体投影图像的球体极点开始，通过经向划分线和纬向划分线将球体划分为多个不重叠的子区域，得到各子区域球体投影图像Sub_Sphere；

S13通过多点2D投影将各子区域球体投影图像Sub_Sphere投影至2D空间，得到其2D投影图像Sub_2D；

S14将各子区域的2D投影图像Sub_2D按其在ERP图像中的对应位置进行对齐组合，得到所述多点2D投影图像ERP_sub；

所述S6中视频数据集的构建包括：

S61自视频集中获得若干高质量的视频帧图像；

2.根据权利要求1所述的预测方法，其特征在于，所述划分中设置相邻经向划分线之间的跨度为30°，相邻纬向划分线之间的跨度为30°。

3.根据权利要求1所述的预测方法，其特征在于，所述模糊处理中，设置所述中心区域为图像中间两行的子区域范围。

4.根据权利要求1所述的预测方法，其特征在于，所述辅助窗口覆盖中，设置每个辅助窗口具有相同数量的子区域覆盖范围，总的辅助窗口数量为6个。

5.根据权利要求1所述的预测方法，其特征在于，所述动态模糊使用高斯平滑模糊。

6.根据权利要求1所述的预测方法，其特征在于，所述注视点预测模型的处理过程包括：

将视频数据集中当前帧ERP图像ERP₂及其前一帧ERP图像ERP₁和后一帧ERP图像ERP₃输入到特征提取网络中，提取得到该三帧图像的球面特征E₁、E₂、E₃，对所得球面特征E₁、E₂、E₃进行基于时空自注意力机制的特征再提取，对再提取得到的特征进行解码后输出，其中，所述特征提取网络为包含4个球面卷积块的球形编码器网络，每个球面卷积块包含1个球面卷积层和1个激活层，所述解码通过3个球形卷积解码器实现，每个球形卷积解码器含有1个上采样层、1个球面卷积层和1个激活层；所述输出通过输出层实现，所述输出层为一个卷积核尺寸1*1的卷积层。

7.根据权利要求6所述的预测方法，其特征在于，所述基于时空自注意力机制的再提取的过程如下：

其中，{E₁，E₂，E₃}＝SphereNet({ERP_1，ERP₂，ERP₃})表示图像ERP₁、ERP₂、ERP₃输入到球形编码器网络后提取得到的所述球面特征；Flat{}表示将输入的张量展平为矩阵，dFlat{}表示其逆过程；⊙表示逐元素矩阵乘法运算；Conv()表示卷积处理；表示展平后的特征矩阵；/>表示实数矩阵；Softmax()表示使用Softmax函数进行处理，Sigmoid()表示使用Sigmoid函数处理；T表示矩阵转置；{D₁，D₂，D₃}表示再提取得到的特征。