CN111860691A

CN111860691A - 基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法

Info

Publication number: CN111860691A
Application number: CN202010758819.XA
Authority: CN
Inventors: 牛玉贞; 彭丹泓
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-10-30
Anticipated expiration: 2040-07-31
Also published as: CN111860691B

Abstract

本发明涉及基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法，包括以下步骤：1、对训练视频集合和待预测视频集合进行场景分割并通过预处理得到视差图；2、进行帧级处理得到帧级特征；3、进行镜头级处理得到隐藏状态集；4、双流融合，使用注意力网络对上一步输出的隐藏状态集合进行融合得到最终的隐藏状态；5、最终的隐藏状态经过分类网络输出分类概率并将专业立体视频分类为适合儿童观看或仅适合成人观看。6、将待测试视频集合中立体视频的左视图和对应的视差图输入训练好的模型中进行分类。本发明能有效分辨专业立体视频是否适合儿童观看。

Description

基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法

技术领域

本发明涉及图像和视频处理以及计算机视觉领域，特别是基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法。

背景技术

立体视频又称为3D视频，不同于2D视频，其最重要的特点是具有深度信息，使得视频里景观的呈现不再局限于屏幕上。立体技术的蓬勃发展使得人们获得更好的观影体验的同时也带来了一些困扰，例如长时间观看不舒适的立体视频会带来头晕眩目、双眼干涩、恶心难受等感觉，这些不良反应会打击观众观看热度，甚至对观看者的生理健康造成影响。因此，如何评价立体影像的视觉舒适度质量成为人们关心的问题。影响立体视频视觉舒适的主要因素之一是视差，包括过大的水平视差、垂直视差以及快速变化的视差，另一个影响立体视频视觉舒适度的主要因素是视频内容，包括视频中的显著物体、视频的呈现方式以及物体的运动。

目前的舒适度评价方法虽然取得了一些较好的效果，但这些工作普遍没有考虑儿童的双目间距。对于儿童而言，其双目间距比成人窄且双目融合机制还未同成人般发育成熟，成像在视网膜上的视差大小与成年人存在差异，这就导致了儿童的立体感知与成人存在差异。就目前市场上映的立体电影来看，并非所有的立体电影都适合儿童观看，特别是原本就存在眼部疾病的儿童，视觉不适的立体电影可能会导致他们头痛、眼睛疲劳以及无法看清图像。

发明内容

本发明的目的在于提出基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法，解决了当前立体视频舒适度评价算法没有将儿童作为受众对象考虑的问题，且能有效分辨专业立体视频是否适合儿童观看。

为实现上述目的，本发明的技术方案是：基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法，包括以下步骤：

步骤S1：对训练视频集合和待预测视频集合进行场景分割并通过预处理得到视差图；

步骤S2：将训练视频集合中的立体视频左视图和对应的视差图作为双流输入进行帧级处理，使用时间推理网络从多个时间尺度对每个镜头内帧间的时序关系进行感知；

步骤S3：镜头级处理：使用循环神经网络双向门控循环单元对连续多个镜头的帧间时序关系进行感知，输出隐藏状态集合；

步骤S4：双流融合，使用注意力网络对步骤S3输出的隐藏状态集合进行融合得到最终的隐藏状态；

步骤S5：最终的隐藏状态经过分类网络输出分类概率并将专业立体视频分类为适合儿童观看或仅适合成人观看，从步骤S2至此即得到构建好的专业立体视频视觉舒适度分类模型；对所述专业立体视频视觉舒适度分类模型进行训练，训练过程中通过求解最小化损失函数，学习到专业立体视频视觉舒适度分类模型的最优参数，并保存模型参数；

步骤S6：将待测试视频集合的左视图和对应的视差图输入训练好的模型中进行分类。

进一步地，所述步骤S1具体包括以下步骤：

步骤S11：使用多媒体视频处理工具将视频分割成一帧帧图像；

步骤S12：利用镜头划分算法将立体视频划分为互不重叠的视频片段，每一个片段称为一个镜头；

步骤S13：将每一帧分割为左、右视图，使用SiftFlow算法计算左右视图中对应像素点的水平位移，作为视差图。

进一步地，所述步骤S2具体包括以下步骤：

步骤S21：对一个镜头内的帧进行稀疏采样，随机选取顺序的8帧；

步骤S22：从采样出来的8帧中随机抽取顺序的a帧使用预训练的时间推理网络分别对a帧之间的时序关系进行感知，且a的取值范围在2-8之间；给定视频V，两帧之间的时序关系T₂(V)表示成下式：

其中，f_i和f_j分别表示的是使用包括AlexNet、VGG、GoogLeNet、ResNet或BN-Inception基础特征提取网络提取出的视频第i帧和第j帧的特征，

是一个两层的多层感知机，每层有256个单元，

是一个一层的多层感知机，有174个单元；θ和φ分别是这两个多层感知机的参数；相似的，3-8帧间的时序关系T₃(V)、T₄(V)、T₅(V)、T₆(V)、T₇(V)和T₈(V)分别表示成下式：

其中，f_i、f_j、f_k、f_l、f_m、f_n、f_o和f_p表示的是使用包括AlexNet、VGG、GoogLeNet、ResNet或BN-Inception基础特征提取网络提取出的视频第i帧、第j帧、第k帧、第l帧、第m帧、第n帧、第o帧和第p帧的特征，

表示用于提取a帧之间时序关系的一个两层的多层感知机，每层有256个单元，

表示用于提取a帧之间时序关系的一个一层的多层感知机，有174个单元。θ和φ分别是多层感知机

和

的参数；

步骤S23：将镜头内各种时间尺度的帧间时序关系进行拼接得到帧级特征x，计算公式如下所示：

x＝[T₂(V),T₃(V),T₄(V),T₅(V),T₆(V),T₇(V),T₈(V)]

进一步地，所述步骤S3具体包括以下步骤：

步骤S31：利用步骤S23，计算连续s个镜头中每个镜头的帧级特征拼接，每一个镜头得到一个得到帧级特征x，第t，t＝1,2,...,s个镜头的帧级特征记为x_t，帧级特征作为双向门控循环单元的输入；门控循环单元第t，t＝1,2,...,s时刻的输入为前一时刻隐藏层h_t-1和第t个镜头的帧级特征x_t，输出为下一时刻隐藏层信息h_t；门控循环单元包含2个门：重置门r_t和更新门z_t，前者用于计算候选隐藏层

控制保留多少前一时刻隐藏层h_t-1的信息；后者用于控制加入多少候选隐藏层

的信息，从而得到输出的隐藏状态h_t；r_t、z_t、

h_t的计算公式如下所示：

z_t＝σ(W_zx_t+U_zh_t-1)

r_t＝σ(W_rx_t+U_rh_t-1)

其中，σ是逻辑sigmoid函数，⊙是元素相乘，tanh是激活函数，W_z、U_z、W_r、U_r、W、U是在训练中学习到的权重矩阵；

步骤S32：由于双向门控循环单元是由2个单向的、方向相反的门控循环单元组成，所以最后输出的h_t由这两个门控循环单元的隐藏状态共同决定；在每一时刻，输入会同时提供给这2个方向相反的门控循环单元，而输出则是由这2个单向门控循环单元共同决定，将2个单向门控循环单元的输出拼接作为双向门控循环单元的输出，得到双向门控循环单元输出的隐藏状态集；当输入为视频帧序列时，双向门控循环单元的输出是隐藏状态集h^f；当输入为视差序列时，双向门控循环单元的输出是隐藏状态集h^d，h^f和h^d的计算公式如下所示：

进一步地，所述步骤S4具体包括以下步骤：

步骤S41：将视频帧序列输出的隐藏状态集h^f与视差序列输出的隐藏状态集h^d在每一个时刻t，t＝1,2,...,s进行拼接得到每一个时刻的隐藏状态集

的计算公式如下所示：

步骤S42：计算

的隐层向量u_t：

其中，W_s和b_s是一个单层的多层向量机的参数，tanh是激活函数；

步骤S43：为了测量各个隐藏状态的重要性，将隐层向量u_t归一化，得到权重α_t：

其中，u_s是上下文向量，在训练开始时随机初始化，并在训练中自动更新；步骤S44：最终的隐藏状态v计算公式如下：

其中，t代表双向门控循环单元的时刻。

进一步地，所述步骤S5具体包括以下步骤：

步骤S51：为了防止网络过拟合将最终的隐藏状态输入分类网络层的第一层随机失活层；

步骤S52：将随机失活后的输出再输入分类网络层的第二层一个全连接层，再通过归一化指数函数将全连接层的输出转化成在(0,1)范围内的分类概率，并将专业立体视频判断为适合儿童观看或仅适合成人观看；

步骤S53：根据交叉熵损失函数，利用反向传播方法计算专业立体视频视觉舒适度分类模型的参数梯度，并利用自适应梯度下降方法更新参数；

其中，交叉熵损失函数L定义如下：

N表示每个批次内样本的数量，y_i表示样本i的标签，正样本y_i为1，代表适合儿童观看，负样本y_i为0，代表仅适合成人观看，p_i表示模型预测样本i为正样本的概率；

步骤S54：以批次为单位进行训练，直至步骤S53中计算得到的L值收敛到阈值或者达到迭代次数到阈值，完成网络训练，学习到上述专业立体视频视觉舒适度分类模型的最优参数，并保存模型参数。

进一步地，所述步骤S6具体包括以下步骤：

步骤S61：将待测试视频集合使用步骤S1进行预处理得到视差图；

步骤S62：使用步骤S2对待测试视频集合中立体视频的左视图和对应的视差图进行帧级处理；

步骤S63：使用步骤S5中保存的训练模型参数对待测试视频集合中所有连续的s个镜头使用步骤S3、S4和S5进行处理和预测；每个连续的s个镜头作为一个样本，当模型预测该样本为正样本的概率大于0.5时，判定分类为正样本，否则为负样本；假设某测试视频有q个连续的s镜头，该测试视频的分类为q个样本的分类结果中的大多数分类结果作为该视频的分类。

相较于现有技术，本发明的有益效果是：

首先，本发明针对当前立体视频舒适度评价算法没有将儿童作为受众对象考虑的问题，提出了基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法，可用于分辨专业立体视频是否适合儿童观看。其次，考虑到引起视觉不适的主要因素有视频内容和视差，该方法采用双流结构分别对立体视频视频帧和视差图序列的特征及其时序关系进行研究，更全面地对立体视频的立体视觉舒适度进行评估。最后，因为视觉不适通常发生在视频片段中，增加分类的难度，为了使模型更加关注引起视觉不适的片段，该方法采用注意力网络对隐藏状态集合进行融合从而提高分类准确率。

附图说明

图1是本发明的流程图；

图2是本发明实施例中专业立体视频视觉舒适度分类模型整体结构图；

图3是本发明实施例中帧级处理时间推理网络模型结构图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步说明。

如图1、图2所示，本实施例提供基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法，包括以下步骤：

步骤S1：对训练视频集合和待预测视频集合进行场景分割并通过预处理得到视差图；具体包括以下步骤：

步骤S2：将训练视频集合中的立体视频左视图和对应的视差图作为双流输入进行帧级处理，如图3所示，使用时间推理网络从多个时间尺度对每个镜头内帧间的时序关系进行感知。具体包括以下步骤：

步骤S22：从采样出来的8帧中随机抽取顺序的a帧使用预训练的时间推理网络分别对a帧之间的时序关系进行感知，且a的取值范围在2-8之间；给定视频V，两帧之间的时序关系T₂(V)可以表示成下式：

是一个两层的多层感知机，每层有256个单元，

是一个一层的多层感知机，有174个单元。θ和φ分别是这两个多层感知机的参数；相似的，3-8帧间的时序关系T₃(V)、T₄(V)、T₅(V)、T₆(V)、T₇(V)和T₈(V)分别可以表示成下式：

其中，f_i、f_j、f_k、f_l、f_m、f_n、f_o和f_p表示的是使用AlexNet、VGG、GoogLeNet、ResNet或BN-Inception基础特征提取网络提取出的视频第i帧、第j帧、第k帧、第l帧、第m帧、第n帧、第o帧和第p帧的特征，

和

的参数；

x＝[T₂(V),T₃(V),T₄(V),T₅(V),T₆(V),T₇(V),T₈(V)]

步骤S3：镜头级处理：使用循环神经网络双向门控循环单元对连续多个镜头的帧间时序关系进行感知，输出隐藏状态集合。具体包括以下步骤：

的信息，从而得到输出的隐藏状态h_t；r_t、z_t、

h_t的计算公式如下所示：

z_t＝σ(W_zx_t+U_zh_t-1)

r_t＝σ(W_rx_t+U_rh_t-1)

步骤S32：由于双向门控循环单元是由2个单向的、方向相反的门控循环单元组成，所以最后输出的h_t由这两个门控循环单元的隐藏状态共同决定；在每一时刻，输入会同时提供给这2个方向相反的门控循环单元，而输出则是由这2个单向门控循环单元共同决定，我们将2个单向门控循环单元的输出拼接作为双向门控循环单元的输出，得到双向门控循环单元输出的隐藏状态集；当输入为视频帧序列时，双向门控循环单元的输出是隐藏状态集h^f；当输入为视差序列时，双向门控循环单元的输出是隐藏状态集h^d，h^f和h^d的计算公式如下所示：

步骤S4：双流融合,使用注意力网络对步骤S3输出的隐藏状态集合进行融合得到最终的隐藏状态，具体包括以下步骤：

的计算公式如下所示：

步骤S42：计算

的隐层向量u_t：

其中，t代表双向门控循环单元的时刻。

具体包括以下步骤：

其中，交叉熵损失函数L定义如下：

步骤S6：将待测试视频集合中的立体视频左视图和对应的视差图输入训练好的模型中进行分类。具体包括以下步骤：

较佳的，在本实施例中，专业立体视频视觉舒适度分类模型由S2到S5构建的网络组成。

较佳的，本实施例，采用专业立体视频连续多个镜头的视频帧和视差图作为输入，采用时间推理网络和双向门控循环单元分别从帧级和镜头级对视频的长、短时序关系进行感知和评估，最终将专业立体视频判断为适合儿童观看或仅适合成人观看。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。