CN111860691B - 基于注意力和循环神经网络的立体视频视觉舒适度分类法 - Google Patents

基于注意力和循环神经网络的立体视频视觉舒适度分类法 Download PDF

Info

Publication number
CN111860691B
CN111860691B CN202010758819.XA CN202010758819A CN111860691B CN 111860691 B CN111860691 B CN 111860691B CN 202010758819 A CN202010758819 A CN 202010758819A CN 111860691 B CN111860691 B CN 111860691B
Authority
CN
China
Prior art keywords
video
frame
layer
classification
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010758819.XA
Other languages
English (en)
Other versions
CN111860691A (zh
Inventor
牛玉贞
彭丹泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202010758819.XA priority Critical patent/CN111860691B/zh
Publication of CN111860691A publication Critical patent/CN111860691A/zh
Application granted granted Critical
Publication of CN111860691B publication Critical patent/CN111860691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,包括以下步骤:1、对训练视频集合和待预测视频集合进行场景分割并通过预处理得到视差图;2、进行帧级处理得到帧级特征;3、进行镜头级处理得到隐藏状态集;4、双流融合,使用注意力网络对上一步输出的隐藏状态集合进行融合得到最终的隐藏状态;5、最终的隐藏状态经过分类网络输出分类概率并将专业立体视频分类为适合儿童观看或仅适合成人观看。6、将待测试视频集合中立体视频的左视图和对应的视差图输入训练好的模型中进行分类。本发明能有效分辨专业立体视频是否适合儿童观看。

Description

基于注意力和循环神经网络的立体视频视觉舒适度分类法
技术领域
本发明涉及图像和视频处理以及计算机视觉领域,特别是基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法。
背景技术
立体视频又称为3D视频,不同于2D视频,其最重要的特点是具有深度信息,使得视频里景观的呈现不再局限于屏幕上。立体技术的蓬勃发展使得人们获得更好的观影体验的同时也带来了一些困扰,例如长时间观看不舒适的立体视频会带来头晕眩目、双眼干涩、恶心难受等感觉,这些不良反应会打击观众观看热度,甚至对观看者的生理健康造成影响。因此,如何评价立体影像的视觉舒适度质量成为人们关心的问题。影响立体视频视觉舒适的主要因素之一是视差,包括过大的水平视差、垂直视差以及快速变化的视差,另一个影响立体视频视觉舒适度的主要因素是视频内容,包括视频中的显著物体、视频的呈现方式以及物体的运动。
目前的舒适度评价方法虽然取得了一些较好的效果,但这些工作普遍没有考虑儿童的双目间距。对于儿童而言,其双目间距比成人窄且双目融合机制还未同成人般发育成熟,成像在视网膜上的视差大小与成年人存在差异,这就导致了儿童的立体感知与成人存在差异。就目前市场上映的立体电影来看,并非所有的立体电影都适合儿童观看,特别是原本就存在眼部疾病的儿童,视觉不适的立体电影可能会导致他们头痛、眼睛疲劳以及无法看清图像。
发明内容
本发明的目的在于提出基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,解决了当前立体视频舒适度评价算法没有将儿童作为受众对象考虑的问题,且能有效分辨专业立体视频是否适合儿童观看。
为实现上述目的,本发明的技术方案是:基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,包括以下步骤:
步骤S1:对训练视频集合和待预测视频集合进行场景分割并通过预处理得到视差图;
步骤S2:将训练视频集合中的立体视频左视图和对应的视差图作为双流输入进行帧级处理,使用时间推理网络从多个时间尺度对每个镜头内帧间的时序关系进行感知;
步骤S3:镜头级处理:使用循环神经网络双向门控循环单元对连续多个镜头的帧间时序关系进行感知,输出隐藏状态集合;
步骤S4:双流融合,使用注意力网络对步骤S3输出的隐藏状态集合进行融合得到最终的隐藏状态;
步骤S5:最终的隐藏状态经过分类网络输出分类概率并将专业立体视频分类为适合儿童观看或仅适合成人观看,从步骤S2至此即得到构建好的专业立体视频视觉舒适度分类模型;对所述专业立体视频视觉舒适度分类模型进行训练,训练过程中通过求解最小化损失函数,学习到专业立体视频视觉舒适度分类模型的最优参数,并保存模型参数;
步骤S6:将待测试视频集合的左视图和对应的视差图输入训练好的模型中进行分类。
进一步地,所述步骤S1具体包括以下步骤:
步骤S11:使用多媒体视频处理工具将视频分割成一帧帧图像;
步骤S12:利用镜头划分算法将立体视频划分为互不重叠的视频片段,每一个片段称为一个镜头;
步骤S13:将每一帧分割为左、右视图,使用SiftFlow算法计算左右视图中对应像素点的水平位移,作为视差图。
进一步地,所述步骤S2具体包括以下步骤:
步骤S21:对一个镜头内的帧进行稀疏采样,随机选取顺序的8帧;
步骤S22:从采样出来的8帧中随机抽取顺序的a帧使用预训练的时间推理网络分别对a帧之间的时序关系进行感知,且a的取值范围在2-8之间;给定视频V,两帧之间的时序关系T2(V)表示成下式:
Figure GDA0003616838710000021
其中,fi和fj分别表示的是使用包括AlexNet、VGG、GoogLeNet、ResNet或BN-Inception基础特征提取网络提取出的视频第i帧和第j帧的特征,
Figure GDA0003616838710000022
是一个两层的多层感知机,每层有256个单元,
Figure GDA0003616838710000023
是一个一层的多层感知机,有174个单元;θ和φ分别是这两个多层感知机的参数;相似的,3-8帧间的时序关系T3(V)、T4(V)、T5(V)、T6(V)、T7(V)和T8(V)分别表示成下式:
Figure GDA0003616838710000024
Figure GDA0003616838710000025
Figure GDA0003616838710000026
Figure GDA0003616838710000027
Figure GDA0003616838710000028
Figure GDA0003616838710000029
其中,fi、fj、fk、fl、fm、fn、fo和fp表示的是使用包括AlexNet、VGG、GoogLeNet、ResNet或BN-Inception基础特征提取网络提取出的视频第i帧、第j帧、第k帧、第l帧、第m帧、第n帧、第o帧和第p帧的特征,
Figure GDA00036168387100000210
表示用于提取a帧之间时序关系的一个两层的多层感知机,每层有256个单元,
Figure GDA00036168387100000211
表示用于提取a帧之间时序关系的一个一层的多层感知机,有174个单元。θ和φ分别是多层感知机
Figure GDA00036168387100000212
Figure GDA00036168387100000213
的参数;
步骤S23:将镜头内各种时间尺度的帧间时序关系进行拼接得到帧级特征x,计算公式如下所示:
x=[T2(V),T3(V),T4(V),T5(V),T6(V),T7(V),T8(V)]
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:利用步骤S23,计算连续s个镜头中每个镜头的帧级特征拼接,每一个镜头得到一个得到帧级特征x,第t,t=1,2,...,s个镜头的帧级特征记为xt,帧级特征作为双向门控循环单元的输入;门控循环单元第t,t=1,2,...,s时刻的输入为前一时刻隐藏层ht-1和第t个镜头的帧级特征xt,输出为下一时刻隐藏层信息ht;门控循环单元包含2个门:重置门rt和更新门zt,前者用于计算候选隐藏层
Figure GDA0003616838710000031
控制保留多少前一时刻隐藏层ht-1的信息;后者用于控制加入多少候选隐藏层
Figure GDA0003616838710000032
的信息,从而得到输出的隐藏状态ht;rt、zt
Figure GDA0003616838710000033
ht的计算公式如下所示:
zt=σ(Wzxt+Uzht-1)
rt=σ(Wrxt+Urht-1)
Figure GDA0003616838710000034
Figure GDA0003616838710000035
其中,σ是逻辑sigmoid函数,⊙是元素相乘,tanh是激活函数,Wz、Uz、Wr、Ur、W、U是在训练中学习到的权重矩阵;
步骤S32:由于双向门控循环单元是由2个单向的、方向相反的门控循环单元组成,所以最后输出的ht由这两个门控循环单元的隐藏状态共同决定;在每一时刻,输入会同时提供给这2个方向相反的门控循环单元,而输出则是由这2个单向门控循环单元共同决定,将2个单向门控循环单元的输出拼接作为双向门控循环单元的输出,得到双向门控循环单元输出的隐藏状态集;当输入为视频帧序列时,双向门控循环单元的输出是隐藏状态集hf;当输入为视差序列时,双向门控循环单元的输出是隐藏状态集hd,hf和hd的计算公式如下所示:
Figure GDA0003616838710000036
Figure GDA0003616838710000037
进一步地,所述步骤S4具体包括以下步骤:
步骤S41:将视频帧序列输出的隐藏状态集hf与视差序列输出的隐藏状态集hd在每一个时刻t,t=1,2,...,s进行拼接得到每一个时刻的隐藏状态集
Figure GDA0003616838710000038
Figure GDA0003616838710000039
的计算公式如下所示:
Figure GDA00036168387100000310
步骤S42:计算
Figure GDA00036168387100000311
的隐层向量ut
Figure GDA00036168387100000312
其中,Ws和bs是一个单层的多层向量机的参数,tanh是激活函数;
步骤S43:为了测量各个隐藏状态的重要性,将隐层向量ut归一化,得到权重αt
Figure GDA0003616838710000041
其中,us是上下文向量,在训练开始时随机初始化,并在训练中自动更新;
步骤S44:最终的隐藏状态v计算公式如下:
Figure GDA0003616838710000042
其中,t代表双向门控循环单元的时刻。
进一步地,所述步骤S5具体包括以下步骤:
步骤S51:为了防止网络过拟合将最终的隐藏状态输入分类网络层的第一层随机失活层;
步骤S52:将随机失活后的输出再输入分类网络层的第二层一个全连接层,再通过归一化指数函数将全连接层的输出转化成在(0,1)范围内的分类概率,并将专业立体视频判断为适合儿童观看或仅适合成人观看;
步骤S53:根据交叉熵损失函数,利用反向传播方法计算专业立体视频视觉舒适度分类模型的参数梯度,并利用自适应梯度下降方法更新参数;
其中,交叉熵损失函数L定义如下:
Figure GDA0003616838710000043
N表示每个批次内样本的数量,yi表示样本i的标签,正样本yi为1,代表适合儿童观看,负样本yi为0,代表仅适合成人观看,pi表示模型预测样本i为正样本的概率;
步骤S54:以批次为单位进行训练,直至步骤S53中计算得到的L值收敛到阈值或者达到迭代次数到阈值,完成网络训练,学习到上述专业立体视频视觉舒适度分类模型的最优参数,并保存模型参数。
进一步地,所述步骤S6具体包括以下步骤:
步骤S61:将待测试视频集合使用步骤S1进行预处理得到视差图;
步骤S62:使用步骤S2对待测试视频集合中立体视频的左视图和对应的视差图进行帧级处理;
步骤S63:使用步骤S5中保存的训练模型参数对待测试视频集合中所有连续的s个镜头使用步骤S3、S4和S5进行处理和预测;每个连续的s个镜头作为一个样本,当模型预测该样本为正样本的概率大于0.5时,判定分类为正样本,否则为负样本;假设某测试视频有q个连续的s镜头,该测试视频的分类为q个样本的分类结果中的大多数分类结果作为该视频的分类。
相较于现有技术,本发明的有益效果是:
首先,本发明针对当前立体视频舒适度评价算法没有将儿童作为受众对象考虑的问题,提出了基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,可用于分辨专业立体视频是否适合儿童观看。其次,考虑到引起视觉不适的主要因素有视频内容和视差,该方法采用双流结构分别对立体视频视频帧和视差图序列的特征及其时序关系进行研究,更全面地对立体视频的立体视觉舒适度进行评估。最后,因为视觉不适通常发生在视频片段中,增加分类的难度,为了使模型更加关注引起视觉不适的片段,该方法采用注意力网络对隐藏状态集合进行融合从而提高分类准确率。
附图说明
图1是本发明的流程图;
图2是本发明实施例中专业立体视频视觉舒适度分类模型整体结构图;
图3是本发明实施例中帧级处理时间推理网络模型结构图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步说明。
如图1、图2所示,本实施例提供基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,包括以下步骤:
步骤S1:对训练视频集合和待预测视频集合进行场景分割并通过预处理得到视差图;具体包括以下步骤:
步骤S11:使用多媒体视频处理工具将视频分割成一帧帧图像;
步骤S12:利用镜头划分算法将立体视频划分为互不重叠的视频片段,每一个片段称为一个镜头;
步骤S13:将每一帧分割为左、右视图,使用SiftFlow算法计算左右视图中对应像素点的水平位移,作为视差图。
步骤S2:将训练视频集合中的立体视频左视图和对应的视差图作为双流输入进行帧级处理,如图3所示,使用时间推理网络从多个时间尺度对每个镜头内帧间的时序关系进行感知。具体包括以下步骤:
步骤S21:对一个镜头内的帧进行稀疏采样,随机选取顺序的8帧;
步骤S22:从采样出来的8帧中随机抽取顺序的a帧使用预训练的时间推理网络分别对a帧之间的时序关系进行感知,且a的取值范围在2-8之间;给定视频V,两帧之间的时序关系T2(V)可以表示成下式:
Figure GDA0003616838710000051
其中,fi和fj分别表示的是使用包括AlexNet、VGG、GoogLeNet、ResNet或BN-Inception基础特征提取网络提取出的视频第i帧和第j帧的特征,
Figure GDA0003616838710000052
是一个两层的多层感知机,每层有256个单元,
Figure GDA0003616838710000053
是一个一层的多层感知机,有174个单元。θ和φ分别是这两个多层感知机的参数;相似的,3-8帧间的时序关系T3(V)、T4(V)、T5(V)、T6(V)、T7(V)和T8(V)分别可以表示成下式:
Figure GDA0003616838710000054
Figure GDA0003616838710000055
Figure GDA0003616838710000056
Figure GDA0003616838710000057
Figure GDA0003616838710000061
Figure GDA0003616838710000062
其中,fi、fj、fk、fl、fm、fn、fo和fp表示的是使用AlexNet、VGG、GoogLeNet、ResNet或BN-Inception基础特征提取网络提取出的视频第i帧、第j帧、第k帧、第l帧、第m帧、第n帧、第o帧和第p帧的特征,
Figure GDA0003616838710000063
表示用于提取a帧之间时序关系的一个两层的多层感知机,每层有256个单元,
Figure GDA0003616838710000064
表示用于提取a帧之间时序关系的一个一层的多层感知机,有174个单元。θ和φ分别是多层感知机
Figure GDA0003616838710000065
Figure GDA0003616838710000066
的参数;
步骤S23:将镜头内各种时间尺度的帧间时序关系进行拼接得到帧级特征x,计算公式如下所示:
x=[T2(V),T3(V),T4(V),T5(V),T6(V),T7(V),T8(V)]
步骤S3:镜头级处理:使用循环神经网络双向门控循环单元对连续多个镜头的帧间时序关系进行感知,输出隐藏状态集合。具体包括以下步骤:
步骤S31:利用步骤S23,计算连续s个镜头中每个镜头的帧级特征拼接,每一个镜头得到一个得到帧级特征x,第t,t=1,2,...,s个镜头的帧级特征记为xt,帧级特征作为双向门控循环单元的输入;门控循环单元第t,t=1,2,...,s时刻的输入为前一时刻隐藏层ht-1和第t个镜头的帧级特征xt,输出为下一时刻隐藏层信息ht;门控循环单元包含2个门:重置门rt和更新门zt,前者用于计算候选隐藏层
Figure GDA0003616838710000067
控制保留多少前一时刻隐藏层ht-1的信息;后者用于控制加入多少候选隐藏层
Figure GDA0003616838710000068
的信息,从而得到输出的隐藏状态ht;rt、zt
Figure GDA0003616838710000069
ht的计算公式如下所示:
zt=σ(Wzxt+Uzht-1)
rt=σ(Wrxt+Urht-1)
Figure GDA00036168387100000610
Figure GDA00036168387100000611
其中,σ是逻辑sigmoid函数,⊙是元素相乘,tanh是激活函数,Wz、Uz、Wr、Ur、W、U是在训练中学习到的权重矩阵;
步骤S32:由于双向门控循环单元是由2个单向的、方向相反的门控循环单元组成,所以最后输出的ht由这两个门控循环单元的隐藏状态共同决定;在每一时刻,输入会同时提供给这2个方向相反的门控循环单元,而输出则是由这2个单向门控循环单元共同决定,我们将2个单向门控循环单元的输出拼接作为双向门控循环单元的输出,得到双向门控循环单元输出的隐藏状态集;当输入为视频帧序列时,双向门控循环单元的输出是隐藏状态集hf;当输入为视差序列时,双向门控循环单元的输出是隐藏状态集hd,hf和hd的计算公式如下所示:
Figure GDA0003616838710000071
Figure GDA0003616838710000072
步骤S4:双流融合,使用注意力网络对步骤S3输出的隐藏状态集合进行融合得到最终的隐藏状态,具体包括以下步骤:
步骤S41:将视频帧序列输出的隐藏状态集hf与视差序列输出的隐藏状态集hd在每一个时刻t,t=1,2,...,s进行拼接得到每一个时刻的隐藏状态集
Figure GDA0003616838710000073
Figure GDA0003616838710000074
的计算公式如下所示:
Figure GDA0003616838710000075
步骤S42:计算
Figure GDA0003616838710000076
的隐层向量ut
Figure GDA0003616838710000077
其中,Ws和bs是一个单层的多层向量机的参数,tanh是激活函数;
步骤S43:为了测量各个隐藏状态的重要性,将隐层向量ut归一化,得到权重αt
Figure GDA0003616838710000078
其中,us是上下文向量,在训练开始时随机初始化,并在训练中自动更新;
步骤S44:最终的隐藏状态v计算公式如下:
Figure GDA0003616838710000079
其中,t代表双向门控循环单元的时刻。
步骤S5:最终的隐藏状态经过分类网络输出分类概率并将专业立体视频分类为适合儿童观看或仅适合成人观看,从步骤S2至此即得到构建好的专业立体视频视觉舒适度分类模型;对所述专业立体视频视觉舒适度分类模型进行训练,训练过程中通过求解最小化损失函数,学习到专业立体视频视觉舒适度分类模型的最优参数,并保存模型参数;
具体包括以下步骤:
步骤S51:为了防止网络过拟合将最终的隐藏状态输入分类网络层的第一层随机失活层;
步骤S52:将随机失活后的输出再输入分类网络层的第二层一个全连接层,再通过归一化指数函数将全连接层的输出转化成在(0,1)范围内的分类概率,并将专业立体视频判断为适合儿童观看或仅适合成人观看;
步骤S53:根据交叉熵损失函数,利用反向传播方法计算专业立体视频视觉舒适度分类模型的参数梯度,并利用自适应梯度下降方法更新参数;
其中,交叉熵损失函数L定义如下:
Figure GDA0003616838710000081
N表示每个批次内样本的数量,yi表示样本i的标签,正样本yi为1,代表适合儿童观看,负样本yi为0,代表仅适合成人观看,pi表示模型预测样本i为正样本的概率;
步骤S54:以批次为单位进行训练,直至步骤S53中计算得到的L值收敛到阈值或者达到迭代次数到阈值,完成网络训练,学习到上述专业立体视频视觉舒适度分类模型的最优参数,并保存模型参数。
步骤S6:将待测试视频集合中的立体视频左视图和对应的视差图输入训练好的模型中进行分类。具体包括以下步骤:
步骤S61:将待测试视频集合使用步骤S1进行预处理得到视差图;
步骤S62:使用步骤S2对待测试视频集合中立体视频的左视图和对应的视差图进行帧级处理;
步骤S63:使用步骤S5中保存的训练模型参数对待测试视频集合中所有连续的s个镜头使用步骤S3、S4和S5进行处理和预测;每个连续的s个镜头作为一个样本,当模型预测该样本为正样本的概率大于0.5时,判定分类为正样本,否则为负样本;假设某测试视频有q个连续的s镜头,该测试视频的分类为q个样本的分类结果中的大多数分类结果作为该视频的分类。
较佳的,在本实施例中,专业立体视频视觉舒适度分类模型由S2到S5构建的网络组成。
较佳的,本实施例,采用专业立体视频连续多个镜头的视频帧和视差图作为输入,采用时间推理网络和双向门控循环单元分别从帧级和镜头级对视频的长、短时序关系进行感知和评估,最终将专业立体视频判断为适合儿童观看或仅适合成人观看。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (4)

1.基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,其特征在于,包括以下步骤:
步骤S1:对训练视频集合和待预测视频集合进行场景分割并通过预处理得到视差图;
步骤S2:将训练视频集合中的立体视频左视图和对应的视差图作为双流输入进行帧级处理,使用时间推理网络从多个时间尺度对每个镜头内帧间的时序关系进行感知;
步骤S3:镜头级处理:使用循环神经网络双向门控循环单元对连续多个镜头的帧间时序关系进行感知,输出隐藏状态集合;
步骤S4:双流融合,使用注意力网络对步骤S3输出的隐藏状态集合进行融合得到最终的隐藏状态;
步骤S5:最终的隐藏状态经过分类网络输出分类概率并将专业立体视频分类为适合儿童观看或仅适合成人观看,从步骤S2至此即得到构建好的专业立体视频视觉舒适度分类模型;对所述专业立体视频视觉舒适度分类模型进行训练,训练过程中通过求解最小化损失函数,学习到专业立体视频视觉舒适度分类模型的最优参数,并保存模型参数;
步骤S6:将待测试视频集合的左视图和对应的视差图输入训练好的模型中进行分类;
所述步骤S3具体包括以下步骤:
步骤S31:利用步骤S23,计算连续s个镜头中每个镜头的帧级特征拼接,每一个镜头得到一个帧级特征x,第t个镜头的帧级特征记为xt,t=1,2,...,s,帧级特征作为双向门控循环单元的输入;门控循环单元第t时刻的输入为前一时刻隐藏层信息ht-1和第t个镜头的帧级特征xt,输出为下一时刻隐藏层信息ht;门控循环单元包含2个门:重置门rt和更新门zt,前者用于计算候选隐藏层
Figure FDA0003616838700000011
控制保留多少前一时刻隐藏层信息ht-1;后者用于控制加入多少候选隐藏层
Figure FDA0003616838700000012
的信息,从而得到输出的隐藏层状态;rt、zt
Figure FDA0003616838700000013
ht的计算公式如下所示:
zt=σ(Wzxt+Uzht-1)
rt=σ(Wrxt+Urht-1)
Figure FDA0003616838700000014
Figure FDA0003616838700000015
其中,σ是逻辑sigmoid函数,⊙是元素相乘,tanh是激活函数,Wz、Uz、Wr、Ur、W、U是在训练中学习到的权重矩阵;
步骤S32:由于双向门控循环单元是由2个单向的、方向相反的门控循环单元组成,所以最后输出的ht由这两个门控循环单元的隐藏状态共同决定;在每一时刻,输入会同时提供给这2个方向相反的门控循环单元,而输出则是由这2个单向门控循环单元共同决定,将2个单向门控循环单元的输出拼接作为双向门控循环单元的输出,得到双向门控循环单元输出的隐藏状态集;当输入为视频帧序列时,双向门控循环单元的输出是隐藏状态集hf;当输入为视差序列时,双向门控循环单元的输出是隐藏状态集hd,hf和hd的计算公式如下所示:
Figure FDA0003616838700000021
Figure FDA0003616838700000022
所述步骤S4具体包括以下步骤:
步骤S41:将视频帧序列输出的隐藏状态集hf与视差序列输出的隐藏状态集hd在每一个时刻t进行拼接得到每一个时刻的隐藏状态集
Figure FDA0003616838700000023
Figure FDA00036168387000000212
的计算公式如下所示:
Figure FDA0003616838700000024
步骤S42:计算
Figure FDA0003616838700000025
的隐层向量ut
Figure FDA0003616838700000026
其中,Ws和bs是一个单层的多层向量机的参数,tanh是激活函数;
步骤S43:将隐层向量ut归一化,得到权重αt
Figure FDA0003616838700000027
其中,us是上下文向量,在训练开始时随机初始化,并在训练中自动更新;
步骤S44:最终的隐藏状态v计算公式如下:
Figure FDA0003616838700000028
其中,t代表双向门控循环单元的时刻;
所述步骤S2具体包括以下步骤:
步骤S21:对一个镜头内的帧进行稀疏采样,随机选取顺序的8帧;
步骤S22:从采样出来的8帧中随机抽取顺序的a帧使用预训练的时间推理网络分别对a帧之间的时序关系进行感知,且a的取值范围在2-8之间;给定视频V,两帧之间的时序关系T2(V)表示成下式:
Figure FDA0003616838700000029
其中,fi和fj分别表示的是使用包括AlexNet、VGG、GoogLeNet、ResNet或BN-Inception基础特征提取网络提取出的视频第i帧和第j帧的特征,
Figure FDA00036168387000000210
是一个两层的多层感知机,每层有256个单元,
Figure FDA00036168387000000211
是一个一层的多层感知机,有174个单元;θ和φ分别是这两个多层感知机的参数;相似的,3-8帧间的时序关系T3(V)、T4(V)、T5(V)、T6(V)、T7(V)和T8(V)分别表示成下式:
Figure FDA0003616838700000031
Figure FDA0003616838700000032
Figure FDA0003616838700000033
Figure FDA0003616838700000034
Figure FDA0003616838700000035
Figure FDA0003616838700000036
其中,fi、fj、fk、fl、fm、fn、fo和fp表示的是使用包括AlexNet、VGG、GoogLeNet、ResNet或BN-Inception基础特征提取网络提取出的视频第i帧、第j帧、第k帧、第l帧、第m帧、第n帧、第o帧和第p帧的特征,
Figure FDA0003616838700000037
表示用于提取a帧之间时序关系的一个两层的多层感知机,每层有256个单元,
Figure FDA0003616838700000038
表示用于提取a帧之间时序关系的一个一层的多层感知机,有174个单元;θ和φ分别是多层感知机
Figure FDA0003616838700000039
Figure FDA00036168387000000310
的参数;
步骤S23:将镜头内各种时间尺度的帧间时序关系进行拼接得到帧级特征x,计算公式如下所示:
x=[T2(V),T3(V),T4(V),T5(V),T6(V),T7(V),T8(V)]。
2.根据权利要求1所述的基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,其特征在于,所述步骤S1具体包括以下步骤:
步骤S11:使用多媒体视频处理工具将视频分割成一帧帧图像;
步骤S12:利用镜头划分算法将立体视频划分为互不重叠的视频片段,每一个片段称为一个镜头;
步骤S13:将每一帧分割为左、右视图,使用SiftFlow算法计算左右视图中对应像素点的水平位移,作为视差图。
3.根据权利要求1所述的基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,其特征在于,所述步骤S5具体包括以下步骤:
步骤S51:为了防止网络过拟合将最终的隐藏状态输入分类网络层的第一层随机失活层;
步骤S52:将随机失活后的输出再输入分类网络层的第二层一个全连接层,再通过归一化指数函数将全连接层的输出转化成在(0,1)范围内的分类概率,并将专业立体视频判断为适合儿童观看或仅适合成人观看;
步骤S53:根据交叉熵损失函数,利用反向传播方法计算专业立体视频视觉舒适度分类模型的参数梯度,并利用自适应梯度下降方法更新参数;
其中,交叉熵损失函数L定义如下:
Figure FDA0003616838700000041
N表示每个批次内样本的数量,yi′表示样本i′的标签,正样本yi′为1,代表适合儿童观看,负样本yi′为0,代表仅适合成人观看,pi′表示模型预测样本i′为正样本的概率;
步骤S54:以批次为单位进行训练,直至步骤S53中计算得到的L值收敛到阈值或者达到迭代次数到阈值,完成网络训练,学习到上述专业立体视频视觉舒适度分类模型的最优参数,并保存模型参数。
4.根据权利要求1所述的基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,其特征在于,所述步骤S6具体包括以下步骤:
步骤S61:将待测试视频集合使用步骤S1进行预处理得到视差图;
步骤S62:使用步骤S2对待测试视频集合中立体视频的左视图和对应的视差图进行帧级处理;
步骤S63:使用步骤S5中保存的训练模型参数对待测试视频集合中所有连续的s个镜头使用步骤S3、S4和S5进行处理和预测;每个连续的s个镜头作为一个样本,当模型预测该样本为正样本的概率大于0.5时,判定分类为正样本,否则为负样本;假设某测试视频有q个连续的s镜头的样本,该测试视频的分类为q个样本的分类结果中的大多数分类结果作为该视频的分类。
CN202010758819.XA 2020-07-31 2020-07-31 基于注意力和循环神经网络的立体视频视觉舒适度分类法 Active CN111860691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010758819.XA CN111860691B (zh) 2020-07-31 2020-07-31 基于注意力和循环神经网络的立体视频视觉舒适度分类法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010758819.XA CN111860691B (zh) 2020-07-31 2020-07-31 基于注意力和循环神经网络的立体视频视觉舒适度分类法

Publications (2)

Publication Number Publication Date
CN111860691A CN111860691A (zh) 2020-10-30
CN111860691B true CN111860691B (zh) 2022-06-14

Family

ID=72953560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010758819.XA Active CN111860691B (zh) 2020-07-31 2020-07-31 基于注意力和循环神经网络的立体视频视觉舒适度分类法

Country Status (1)

Country Link
CN (1) CN111860691B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613486B (zh) * 2021-01-07 2023-08-08 福州大学 基于多层注意力和BiGRU的专业立体视频舒适度分类方法
CN112446556B (zh) * 2021-01-27 2021-04-30 电子科技大学 基于表示学习和行为特征的通信网用户呼叫对象预测方法
CN113807318B (zh) * 2021-10-11 2023-10-31 南京信息工程大学 一种基于双流卷积神经网络和双向gru的动作识别方法
CN114124823B (zh) * 2021-10-18 2023-08-11 西安电子科技大学 面向高动态网络拓扑下的自适应路由方法、系统、设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105163111A (zh) * 2015-09-10 2015-12-16 宁波大学 一种基于场景模式分类的立体图像视觉舒适度评价方法
CN108389192A (zh) * 2018-02-11 2018-08-10 天津大学 基于卷积神经网络的立体图像舒适度评价方法
CN109523590A (zh) * 2018-10-22 2019-03-26 福州大学 一种基于样例的3d图像深度信息视觉舒适度评估方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190103182A1 (en) * 2017-09-29 2019-04-04 Apple Inc. Management of comfort states of an electronic device user

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105163111A (zh) * 2015-09-10 2015-12-16 宁波大学 一种基于场景模式分类的立体图像视觉舒适度评价方法
CN108389192A (zh) * 2018-02-11 2018-08-10 天津大学 基于卷积神经网络的立体图像舒适度评价方法
CN109523590A (zh) * 2018-10-22 2019-03-26 福州大学 一种基于样例的3d图像深度信息视觉舒适度评估方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hui Ren et al..Effect of dynamic disparity on visual comfort of stereoscopic video.《2014 IEEE Workshop on Advanced Research and Technology in Industry Applications (WARTIA)》.2014,第1114-1117页. *
吴志山 等.基于多尺度失真感知特征的重定向图像质量评估.《北京航空航天大学学报》.2019,第45卷(第12期),第2487-2494页. *
朱兆琪.基于视觉注意机制的立体图像舒适度研究.《中国优秀博硕士学位论文全文数据库(硕士)》.2019,(第04期),第1-64页. *

Also Published As

Publication number Publication date
CN111860691A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111860691B (zh) 基于注意力和循环神经网络的立体视频视觉舒适度分类法
CN109902546B (zh) 人脸识别方法、装置及计算机可读介质
CN110929622B (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN109815826B (zh) 人脸属性模型的生成方法及装置
CN112149459B (zh) 一种基于交叉注意力机制的视频显著性物体检测模型及系统
CN112446476A (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
Das et al. Where to focus on for human action recognition?
CN108229338A (zh) 一种基于深度卷积特征的视频行为识别方法
CN109919221B (zh) 基于双向双注意力机制图像描述方法
CN112070044B (zh) 一种视频物体分类方法及装置
CN112597883A (zh) 一种基于广义图卷积和强化学习的人体骨架动作识别方法
CN115661943B (zh) 一种基于轻量级姿态评估网络的跌倒检测方法
CN112906631B (zh) 一种基于视频的危险驾驶行为检测方法和检测系统
CN112784698A (zh) 基于深层次时空信息的无参考视频质量评价方法
CN112434608B (zh) 一种基于双流结合网络的人体行为识别方法及系统
WO2021073311A1 (zh) 图像识别方法、装置、计算机可读存储介质及芯片
CN112507920B (zh) 一种基于时间位移和注意力机制的考试异常行为识别方法
CN112613486B (zh) 基于多层注意力和BiGRU的专业立体视频舒适度分类方法
CN113570689B (zh) 人像卡通化方法、装置、介质和计算设备
CN113239866B (zh) 一种时空特征融合与样本注意增强的人脸识别方法及系统
CN114359785A (zh) 基于自适应矩阵特征融合网络的唇语识别方法、装置及电子设备
CN106778576A (zh) 一种基于sehm特征图序列的动作识别方法
CN113706404A (zh) 一种基于自注意力机制的俯角人脸图像校正方法及系统
CN116402811B (zh) 一种打架斗殴行为识别方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant