CN111860691A - 基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法 - Google Patents

基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法 Download PDF

Info

Publication number
CN111860691A
CN111860691A CN202010758819.XA CN202010758819A CN111860691A CN 111860691 A CN111860691 A CN 111860691A CN 202010758819 A CN202010758819 A CN 202010758819A CN 111860691 A CN111860691 A CN 111860691A
Authority
CN
China
Prior art keywords
video
frame
classification
layer
stereoscopic video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010758819.XA
Other languages
English (en)
Other versions
CN111860691B (zh
Inventor
牛玉贞
彭丹泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202010758819.XA priority Critical patent/CN111860691B/zh
Publication of CN111860691A publication Critical patent/CN111860691A/zh
Application granted granted Critical
Publication of CN111860691B publication Critical patent/CN111860691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,包括以下步骤:1、对训练视频集合和待预测视频集合进行场景分割并通过预处理得到视差图;2、进行帧级处理得到帧级特征;3、进行镜头级处理得到隐藏状态集;4、双流融合,使用注意力网络对上一步输出的隐藏状态集合进行融合得到最终的隐藏状态;5、最终的隐藏状态经过分类网络输出分类概率并将专业立体视频分类为适合儿童观看或仅适合成人观看。6、将待测试视频集合中立体视频的左视图和对应的视差图输入训练好的模型中进行分类。本发明能有效分辨专业立体视频是否适合儿童观看。

Description

基于注意力和循环神经网络的专业立体视频视觉舒适度分类 方法
技术领域
本发明涉及图像和视频处理以及计算机视觉领域,特别是基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法。
背景技术
立体视频又称为3D视频,不同于2D视频,其最重要的特点是具有深度信息,使得视频里景观的呈现不再局限于屏幕上。立体技术的蓬勃发展使得人们获得更好的观影体验的同时也带来了一些困扰,例如长时间观看不舒适的立体视频会带来头晕眩目、双眼干涩、恶心难受等感觉,这些不良反应会打击观众观看热度,甚至对观看者的生理健康造成影响。因此,如何评价立体影像的视觉舒适度质量成为人们关心的问题。影响立体视频视觉舒适的主要因素之一是视差,包括过大的水平视差、垂直视差以及快速变化的视差,另一个影响立体视频视觉舒适度的主要因素是视频内容,包括视频中的显著物体、视频的呈现方式以及物体的运动。
目前的舒适度评价方法虽然取得了一些较好的效果,但这些工作普遍没有考虑儿童的双目间距。对于儿童而言,其双目间距比成人窄且双目融合机制还未同成人般发育成熟,成像在视网膜上的视差大小与成年人存在差异,这就导致了儿童的立体感知与成人存在差异。就目前市场上映的立体电影来看,并非所有的立体电影都适合儿童观看,特别是原本就存在眼部疾病的儿童,视觉不适的立体电影可能会导致他们头痛、眼睛疲劳以及无法看清图像。
发明内容
本发明的目的在于提出基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,解决了当前立体视频舒适度评价算法没有将儿童作为受众对象考虑的问题,且能有效分辨专业立体视频是否适合儿童观看。
为实现上述目的,本发明的技术方案是:基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,包括以下步骤:
步骤S1:对训练视频集合和待预测视频集合进行场景分割并通过预处理得到视差图;
步骤S2:将训练视频集合中的立体视频左视图和对应的视差图作为双流输入进行帧级处理,使用时间推理网络从多个时间尺度对每个镜头内帧间的时序关系进行感知;
步骤S3:镜头级处理:使用循环神经网络双向门控循环单元对连续多个镜头的帧间时序关系进行感知,输出隐藏状态集合;
步骤S4:双流融合,使用注意力网络对步骤S3输出的隐藏状态集合进行融合得到最终的隐藏状态;
步骤S5:最终的隐藏状态经过分类网络输出分类概率并将专业立体视频分类为适合儿童观看或仅适合成人观看,从步骤S2至此即得到构建好的专业立体视频视觉舒适度分类模型;对所述专业立体视频视觉舒适度分类模型进行训练,训练过程中通过求解最小化损失函数,学习到专业立体视频视觉舒适度分类模型的最优参数,并保存模型参数;
步骤S6:将待测试视频集合的左视图和对应的视差图输入训练好的模型中进行分类。
进一步地,所述步骤S1具体包括以下步骤:
步骤S11:使用多媒体视频处理工具将视频分割成一帧帧图像;
步骤S12:利用镜头划分算法将立体视频划分为互不重叠的视频片段,每一个片段称为一个镜头;
步骤S13:将每一帧分割为左、右视图,使用SiftFlow算法计算左右视图中对应像素点的水平位移,作为视差图。
进一步地,所述步骤S2具体包括以下步骤:
步骤S21:对一个镜头内的帧进行稀疏采样,随机选取顺序的8帧;
步骤S22:从采样出来的8帧中随机抽取顺序的a帧使用预训练的时间推理网络分别对a帧之间的时序关系进行感知,且a的取值范围在2-8之间;给定视频V,两帧之间的时序关系T2(V)表示成下式:
Figure BDA0002612518760000021
其中,fi和fj分别表示的是使用包括AlexNet、VGG、GoogLeNet、ResNet或BN-Inception基础特征提取网络提取出的视频第i帧和第j帧的特征,
Figure BDA0002612518760000022
是一个两层的多层感知机,每层有256个单元,
Figure BDA0002612518760000031
是一个一层的多层感知机,有174个单元;θ和φ分别是这两个多层感知机的参数;相似的,3-8帧间的时序关系T3(V)、T4(V)、T5(V)、T6(V)、T7(V)和T8(V)分别表示成下式:
Figure BDA0002612518760000032
Figure BDA0002612518760000033
Figure BDA0002612518760000034
Figure BDA0002612518760000035
Figure BDA0002612518760000036
Figure BDA0002612518760000037
其中,fi、fj、fk、fl、fm、fn、fo和fp表示的是使用包括AlexNet、VGG、GoogLeNet、ResNet或BN-Inception基础特征提取网络提取出的视频第i帧、第j帧、第k帧、第l帧、第m帧、第n帧、第o帧和第p帧的特征,
Figure BDA0002612518760000038
表示用于提取a帧之间时序关系的一个两层的多层感知机,每层有256个单元,
Figure BDA0002612518760000039
表示用于提取a帧之间时序关系的一个一层的多层感知机,有174个单元。θ和φ分别是多层感知机
Figure BDA00026125187600000310
Figure BDA00026125187600000311
的参数;
步骤S23:将镜头内各种时间尺度的帧间时序关系进行拼接得到帧级特征x,计算公式如下所示:
x=[T2(V),T3(V),T4(V),T5(V),T6(V),T7(V),T8(V)]
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:利用步骤S23,计算连续s个镜头中每个镜头的帧级特征拼接,每一个镜头得到一个得到帧级特征x,第t,t=1,2,...,s个镜头的帧级特征记为xt,帧级特征作为双向门控循环单元的输入;门控循环单元第t,t=1,2,...,s时刻的输入为前一时刻隐藏层ht-1和第t个镜头的帧级特征xt,输出为下一时刻隐藏层信息ht;门控循环单元包含2个门:重置门rt和更新门zt,前者用于计算候选隐藏层
Figure BDA0002612518760000041
控制保留多少前一时刻隐藏层ht-1的信息;后者用于控制加入多少候选隐藏层
Figure BDA0002612518760000042
的信息,从而得到输出的隐藏状态ht;rt、zt
Figure BDA0002612518760000043
ht的计算公式如下所示:
zt=σ(Wzxt+Uzht-1)
rt=σ(Wrxt+Urht-1)
Figure BDA0002612518760000044
Figure BDA0002612518760000045
其中,σ是逻辑sigmoid函数,⊙是元素相乘,tanh是激活函数,Wz、Uz、Wr、Ur、W、U是在训练中学习到的权重矩阵;
步骤S32:由于双向门控循环单元是由2个单向的、方向相反的门控循环单元组成,所以最后输出的ht由这两个门控循环单元的隐藏状态共同决定;在每一时刻,输入会同时提供给这2个方向相反的门控循环单元,而输出则是由这2个单向门控循环单元共同决定,将2个单向门控循环单元的输出拼接作为双向门控循环单元的输出,得到双向门控循环单元输出的隐藏状态集;当输入为视频帧序列时,双向门控循环单元的输出是隐藏状态集hf;当输入为视差序列时,双向门控循环单元的输出是隐藏状态集hd,hf和hd的计算公式如下所示:
Figure BDA0002612518760000046
Figure BDA0002612518760000047
进一步地,所述步骤S4具体包括以下步骤:
步骤S41:将视频帧序列输出的隐藏状态集hf与视差序列输出的隐藏状态集hd在每一个时刻t,t=1,2,...,s进行拼接得到每一个时刻的隐藏状态集
Figure BDA0002612518760000048
的计算公式如下所示:
Figure BDA0002612518760000051
步骤S42:计算
Figure BDA0002612518760000052
的隐层向量ut
Figure BDA0002612518760000053
其中,Ws和bs是一个单层的多层向量机的参数,tanh是激活函数;
步骤S43:为了测量各个隐藏状态的重要性,将隐层向量ut归一化,得到权重αt
Figure BDA0002612518760000054
其中,us是上下文向量,在训练开始时随机初始化,并在训练中自动更新;步骤S44:最终的隐藏状态v计算公式如下:
Figure BDA0002612518760000055
其中,t代表双向门控循环单元的时刻。
进一步地,所述步骤S5具体包括以下步骤:
步骤S51:为了防止网络过拟合将最终的隐藏状态输入分类网络层的第一层随机失活层;
步骤S52:将随机失活后的输出再输入分类网络层的第二层一个全连接层,再通过归一化指数函数将全连接层的输出转化成在(0,1)范围内的分类概率,并将专业立体视频判断为适合儿童观看或仅适合成人观看;
步骤S53:根据交叉熵损失函数,利用反向传播方法计算专业立体视频视觉舒适度分类模型的参数梯度,并利用自适应梯度下降方法更新参数;
其中,交叉熵损失函数L定义如下:
Figure BDA0002612518760000056
N表示每个批次内样本的数量,yi表示样本i的标签,正样本yi为1,代表适合儿童观看,负样本yi为0,代表仅适合成人观看,pi表示模型预测样本i为正样本的概率;
步骤S54:以批次为单位进行训练,直至步骤S53中计算得到的L值收敛到阈值或者达到迭代次数到阈值,完成网络训练,学习到上述专业立体视频视觉舒适度分类模型的最优参数,并保存模型参数。
进一步地,所述步骤S6具体包括以下步骤:
步骤S61:将待测试视频集合使用步骤S1进行预处理得到视差图;
步骤S62:使用步骤S2对待测试视频集合中立体视频的左视图和对应的视差图进行帧级处理;
步骤S63:使用步骤S5中保存的训练模型参数对待测试视频集合中所有连续的s个镜头使用步骤S3、S4和S5进行处理和预测;每个连续的s个镜头作为一个样本,当模型预测该样本为正样本的概率大于0.5时,判定分类为正样本,否则为负样本;假设某测试视频有q个连续的s镜头,该测试视频的分类为q个样本的分类结果中的大多数分类结果作为该视频的分类。
相较于现有技术,本发明的有益效果是:
首先,本发明针对当前立体视频舒适度评价算法没有将儿童作为受众对象考虑的问题,提出了基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,可用于分辨专业立体视频是否适合儿童观看。其次,考虑到引起视觉不适的主要因素有视频内容和视差,该方法采用双流结构分别对立体视频视频帧和视差图序列的特征及其时序关系进行研究,更全面地对立体视频的立体视觉舒适度进行评估。最后,因为视觉不适通常发生在视频片段中,增加分类的难度,为了使模型更加关注引起视觉不适的片段,该方法采用注意力网络对隐藏状态集合进行融合从而提高分类准确率。
附图说明
图1是本发明的流程图;
图2是本发明实施例中专业立体视频视觉舒适度分类模型整体结构图;
图3是本发明实施例中帧级处理时间推理网络模型结构图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步说明。
如图1、图2所示,本实施例提供基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,包括以下步骤:
步骤S1:对训练视频集合和待预测视频集合进行场景分割并通过预处理得到视差图;具体包括以下步骤:
步骤S11:使用多媒体视频处理工具将视频分割成一帧帧图像;
步骤S12:利用镜头划分算法将立体视频划分为互不重叠的视频片段,每一个片段称为一个镜头;
步骤S13:将每一帧分割为左、右视图,使用SiftFlow算法计算左右视图中对应像素点的水平位移,作为视差图。
步骤S2:将训练视频集合中的立体视频左视图和对应的视差图作为双流输入进行帧级处理,如图3所示,使用时间推理网络从多个时间尺度对每个镜头内帧间的时序关系进行感知。具体包括以下步骤:
步骤S21:对一个镜头内的帧进行稀疏采样,随机选取顺序的8帧;
步骤S22:从采样出来的8帧中随机抽取顺序的a帧使用预训练的时间推理网络分别对a帧之间的时序关系进行感知,且a的取值范围在2-8之间;给定视频V,两帧之间的时序关系T2(V)可以表示成下式:
Figure BDA0002612518760000071
其中,fi和fj分别表示的是使用包括AlexNet、VGG、GoogLeNet、ResNet或BN-Inception基础特征提取网络提取出的视频第i帧和第j帧的特征,
Figure BDA0002612518760000072
是一个两层的多层感知机,每层有256个单元,
Figure BDA0002612518760000073
是一个一层的多层感知机,有174个单元。θ和φ分别是这两个多层感知机的参数;相似的,3-8帧间的时序关系T3(V)、T4(V)、T5(V)、T6(V)、T7(V)和T8(V)分别可以表示成下式:
Figure BDA0002612518760000074
Figure BDA0002612518760000075
Figure BDA0002612518760000076
Figure BDA0002612518760000077
Figure BDA0002612518760000081
Figure BDA0002612518760000082
其中,fi、fj、fk、fl、fm、fn、fo和fp表示的是使用AlexNet、VGG、GoogLeNet、ResNet或BN-Inception基础特征提取网络提取出的视频第i帧、第j帧、第k帧、第l帧、第m帧、第n帧、第o帧和第p帧的特征,
Figure BDA0002612518760000083
表示用于提取a帧之间时序关系的一个两层的多层感知机,每层有256个单元,
Figure BDA0002612518760000084
表示用于提取a帧之间时序关系的一个一层的多层感知机,有174个单元。θ和φ分别是多层感知机
Figure BDA0002612518760000085
Figure BDA0002612518760000086
的参数;
步骤S23:将镜头内各种时间尺度的帧间时序关系进行拼接得到帧级特征x,计算公式如下所示:
x=[T2(V),T3(V),T4(V),T5(V),T6(V),T7(V),T8(V)]
步骤S3:镜头级处理:使用循环神经网络双向门控循环单元对连续多个镜头的帧间时序关系进行感知,输出隐藏状态集合。具体包括以下步骤:
步骤S31:利用步骤S23,计算连续s个镜头中每个镜头的帧级特征拼接,每一个镜头得到一个得到帧级特征x,第t,t=1,2,...,s个镜头的帧级特征记为xt,帧级特征作为双向门控循环单元的输入;门控循环单元第t,t=1,2,...,s时刻的输入为前一时刻隐藏层ht-1和第t个镜头的帧级特征xt,输出为下一时刻隐藏层信息ht;门控循环单元包含2个门:重置门rt和更新门zt,前者用于计算候选隐藏层
Figure BDA0002612518760000087
控制保留多少前一时刻隐藏层ht-1的信息;后者用于控制加入多少候选隐藏层
Figure BDA0002612518760000088
的信息,从而得到输出的隐藏状态ht;rt、zt
Figure BDA0002612518760000089
ht的计算公式如下所示:
zt=σ(Wzxt+Uzht-1)
rt=σ(Wrxt+Urht-1)
Figure BDA0002612518760000091
Figure BDA0002612518760000092
其中,σ是逻辑sigmoid函数,⊙是元素相乘,tanh是激活函数,Wz、Uz、Wr、Ur、W、U是在训练中学习到的权重矩阵;
步骤S32:由于双向门控循环单元是由2个单向的、方向相反的门控循环单元组成,所以最后输出的ht由这两个门控循环单元的隐藏状态共同决定;在每一时刻,输入会同时提供给这2个方向相反的门控循环单元,而输出则是由这2个单向门控循环单元共同决定,我们将2个单向门控循环单元的输出拼接作为双向门控循环单元的输出,得到双向门控循环单元输出的隐藏状态集;当输入为视频帧序列时,双向门控循环单元的输出是隐藏状态集hf;当输入为视差序列时,双向门控循环单元的输出是隐藏状态集hd,hf和hd的计算公式如下所示:
Figure BDA0002612518760000093
Figure BDA0002612518760000094
步骤S4:双流融合,使用注意力网络对步骤S3输出的隐藏状态集合进行融合得到最终的隐藏状态,具体包括以下步骤:
步骤S41:将视频帧序列输出的隐藏状态集hf与视差序列输出的隐藏状态集hd在每一个时刻t,t=1,2,...,s进行拼接得到每一个时刻的隐藏状态集
Figure BDA0002612518760000095
的计算公式如下所示:
Figure BDA0002612518760000096
步骤S42:计算
Figure BDA0002612518760000097
的隐层向量ut
Figure BDA0002612518760000098
其中,Ws和bs是一个单层的多层向量机的参数,tanh是激活函数;
步骤S43:为了测量各个隐藏状态的重要性,将隐层向量ut归一化,得到权重αt
Figure BDA0002612518760000101
其中,us是上下文向量,在训练开始时随机初始化,并在训练中自动更新;步骤S44:最终的隐藏状态v计算公式如下:
Figure BDA0002612518760000102
其中,t代表双向门控循环单元的时刻。
步骤S5:最终的隐藏状态经过分类网络输出分类概率并将专业立体视频分类为适合儿童观看或仅适合成人观看,从步骤S2至此即得到构建好的专业立体视频视觉舒适度分类模型;对所述专业立体视频视觉舒适度分类模型进行训练,训练过程中通过求解最小化损失函数,学习到专业立体视频视觉舒适度分类模型的最优参数,并保存模型参数;
具体包括以下步骤:
步骤S51:为了防止网络过拟合将最终的隐藏状态输入分类网络层的第一层随机失活层;
步骤S52:将随机失活后的输出再输入分类网络层的第二层一个全连接层,再通过归一化指数函数将全连接层的输出转化成在(0,1)范围内的分类概率,并将专业立体视频判断为适合儿童观看或仅适合成人观看;
步骤S53:根据交叉熵损失函数,利用反向传播方法计算专业立体视频视觉舒适度分类模型的参数梯度,并利用自适应梯度下降方法更新参数;
其中,交叉熵损失函数L定义如下:
Figure BDA0002612518760000103
N表示每个批次内样本的数量,yi表示样本i的标签,正样本yi为1,代表适合儿童观看,负样本yi为0,代表仅适合成人观看,pi表示模型预测样本i为正样本的概率;
步骤S54:以批次为单位进行训练,直至步骤S53中计算得到的L值收敛到阈值或者达到迭代次数到阈值,完成网络训练,学习到上述专业立体视频视觉舒适度分类模型的最优参数,并保存模型参数。
步骤S6:将待测试视频集合中的立体视频左视图和对应的视差图输入训练好的模型中进行分类。具体包括以下步骤:
步骤S61:将待测试视频集合使用步骤S1进行预处理得到视差图;
步骤S62:使用步骤S2对待测试视频集合中立体视频的左视图和对应的视差图进行帧级处理;
步骤S63:使用步骤S5中保存的训练模型参数对待测试视频集合中所有连续的s个镜头使用步骤S3、S4和S5进行处理和预测;每个连续的s个镜头作为一个样本,当模型预测该样本为正样本的概率大于0.5时,判定分类为正样本,否则为负样本;假设某测试视频有q个连续的s镜头,该测试视频的分类为q个样本的分类结果中的大多数分类结果作为该视频的分类。
较佳的,在本实施例中,专业立体视频视觉舒适度分类模型由S2到S5构建的网络组成。
较佳的,本实施例,采用专业立体视频连续多个镜头的视频帧和视差图作为输入,采用时间推理网络和双向门控循环单元分别从帧级和镜头级对视频的长、短时序关系进行感知和评估,最终将专业立体视频判断为适合儿童观看或仅适合成人观看。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (7)

1.基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,其特征在于,包括以下步骤:
步骤S1:对训练视频集合和待预测视频集合进行场景分割并通过预处理得到视差图;
步骤S2:将训练视频集合中的立体视频左视图和对应的视差图作为双流输入进行帧级处理,使用时间推理网络从多个时间尺度对每个镜头内帧间的时序关系进行感知;
步骤S3:镜头级处理:使用循环神经网络双向门控循环单元对连续多个镜头的帧间时序关系进行感知,输出隐藏状态集合;
步骤S4:双流融合,使用注意力网络对步骤S3输出的隐藏状态集合进行融合得到最终的隐藏状态;
步骤S5:最终的隐藏状态经过分类网络输出分类概率并将专业立体视频分类为适合儿童观看或仅适合成人观看,从步骤S2至此即得到构建好的专业立体视频视觉舒适度分类模型;对所述专业立体视频视觉舒适度分类模型进行训练,训练过程中通过求解最小化损失函数,学习到专业立体视频视觉舒适度分类模型的最优参数,并保存模型参数;
步骤S6:将待测试视频集合的左视图和对应的视差图输入训练好的模型中进行分类。
2.根据权利要求1所述的基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,其特征在于,所述步骤S1具体包括以下步骤:
步骤S11:使用多媒体视频处理工具将视频分割成一帧帧图像;
步骤S12:利用镜头划分算法将立体视频划分为互不重叠的视频片段,每一个片段称为一个镜头;
步骤S13:将每一帧分割为左、右视图,使用Sift Flow算法计算左右视图中对应像素点的水平位移,作为视差图。
3.根据权利要求1所述的基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,其特征在于,所述步骤S2具体包括以下步骤:
步骤S21:对一个镜头内的帧进行稀疏采样,随机选取顺序的8帧;
步骤S22:从采样出来的8帧中随机抽取顺序的a帧使用预训练的时间推理网络分别对a帧之间的时序关系进行感知,且a的取值范围在2-8之间;给定视频V,两帧之间的时序关系T2(V)表示成下式:
Figure FDA0002612518750000021
其中,fi和fj分别表示的是使用包括AlexNet、VGG、GoogLeNet、ResNet或BN-Inception基础特征提取网络提取出的视频第i帧和第j帧的特征,
Figure FDA0002612518750000022
是一个两层的多层感知机,每层有256个单元,
Figure FDA0002612518750000023
是一个一层的多层感知机,有174个单元;θ和φ分别是这两个多层感知机的参数;相似的,3-8帧间的时序关系T3(V)、T4(V)、T5(V)、T6(V)、T7(V)和T8(V)分别表示成下式:
Figure FDA0002612518750000024
Figure FDA0002612518750000025
Figure FDA0002612518750000026
Figure FDA0002612518750000027
Figure FDA0002612518750000028
Figure FDA0002612518750000029
其中,fi、fj、fk、fl、fm、fn、fo和fp表示的是使用包括AlexNet、VGG、GoogLeNet、ResNet或BN-Inception基础特征提取网络提取出的视频第i帧、第j帧、第k帧、第l帧、第m帧、第n帧、第o帧和第p帧的特征,
Figure FDA00026125187500000210
表示用于提取a帧之间时序关系的一个两层的多层感知机,每层有256个单元,
Figure FDA00026125187500000211
表示用于提取a帧之间时序关系的一个一层的多层感知机,有174个单元;θ和φ分别是多层感知机
Figure FDA00026125187500000212
Figure FDA00026125187500000213
的参数;
步骤S23:将镜头内各种时间尺度的帧间时序关系进行拼接得到帧级特征x,计算公式如下所示:
x=[T2(V),T3(V),T4(V),T5(V),T6(V),T7(V),T8(V)]
4.根据权利要求3所述的基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,其特征在于,所述步骤S3具体包括以下步骤:
步骤S31:利用步骤S23,计算连续s个镜头中每个镜头的帧级特征拼接,每一个镜头得到一个得到帧级特征x,第t,t=1,2,...,s个镜头的帧级特征记为xt,帧级特征作为双向门控循环单元的输入;门控循环单元第t,t=1,2,...,s时刻的输入为前一时刻隐藏层ht-1和第t个镜头的帧级特征xt,输出为下一时刻隐藏层信息ht;门控循环单元包含2个门:重置门rt和更新门zt,前者用于计算候选隐藏层
Figure FDA0002612518750000031
控制保留多少前一时刻隐藏层ht-1的信息;后者用于控制加入多少候选隐藏层
Figure FDA0002612518750000032
的信息,从而得到输出的隐藏状态ht;rt、zt
Figure FDA0002612518750000033
ht的计算公式如下所示:
zt=σ(Wzxt+Uzht-1)
rt=σ(Wrxt+Urht-1)
Figure FDA0002612518750000034
Figure FDA0002612518750000035
其中,σ是逻辑sigmoid函数,⊙是元素相乘,tanh是激活函数,Wz、Uz、Wr、Ur、W、U是在训练中学习到的权重矩阵;
步骤S32:由于双向门控循环单元是由2个单向的、方向相反的门控循环单元组成,所以最后输出的ht由这两个门控循环单元的隐藏状态共同决定;在每一时刻,输入会同时提供给这2个方向相反的门控循环单元,而输出则是由这2个单向门控循环单元共同决定,将2个单向门控循环单元的输出拼接作为双向门控循环单元的输出,得到双向门控循环单元输出的隐藏状态集;当输入为视频帧序列时,双向门控循环单元的输出是隐藏状态集hf;当输入为视差序列时,双向门控循环单元的输出是隐藏状态集hd,hf和hd的计算公式如下所示:
Figure FDA0002612518750000036
Figure FDA0002612518750000037
5.根据权利要求4所述的基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,其特征在于,所述步骤S4具体包括以下步骤:
步骤S41:将视频帧序列输出的隐藏状态集hf与视差序列输出的隐藏状态集hd在每一个时刻t,t=1,2,...,s进行拼接得到每一个时刻的隐藏状态集
Figure FDA0002612518750000041
的计算公式如下所示:
Figure FDA0002612518750000042
步骤S42:计算
Figure FDA0002612518750000043
的隐层向量ut
Figure FDA0002612518750000044
其中,Ws和bs是一个单层的多层向量机的参数,tanh是激活函数;
步骤S43:为了测量各个隐藏状态的重要性,将隐层向量ut归一化,得到权重αt
Figure FDA0002612518750000045
其中,us是上下文向量,在训练开始时随机初始化,并在训练中自动更新;
步骤S44:最终的隐藏状态v计算公式如下:
Figure FDA0002612518750000046
其中,t代表双向门控循环单元的时刻。
6.根据权利要求5所述的基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,其特征在于,所述步骤S5具体包括以下步骤:
步骤S51:为了防止网络过拟合将最终的隐藏状态输入分类网络层的第一层随机失活层;
步骤S52:将随机失活后的输出再输入分类网络层的第二层一个全连接层,再通过归一化指数函数将全连接层的输出转化成在(0,1)范围内的分类概率,并将专业立体视频判断为适合儿童观看或仅适合成人观看;
步骤S53:根据交叉熵损失函数,利用反向传播方法计算专业立体视频视觉舒适度分类模型的参数梯度,并利用自适应梯度下降方法更新参数;
其中,交叉熵损失函数L定义如下:
Figure FDA0002612518750000051
N表示每个批次内样本的数量,yi表示样本i的标签,正样本yi为1,代表适合儿童观看,负样本yi为0,代表仅适合成人观看,pi表示模型预测样本i为正样本的概率;
步骤S54:以批次为单位进行训练,直至步骤S53中计算得到的L值收敛到阈值或者达到迭代次数到阈值,完成网络训练,学习到上述专业立体视频视觉舒适度分类模型的最优参数,并保存模型参数。
7.根据权利要求5所述的基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法,其特征在于,所述步骤S6具体包括以下步骤:
步骤S61:将待测试视频集合使用步骤S1进行预处理得到视差图;
步骤S62:使用步骤S2对待测试视频集合中立体视频的左视图和对应的视差图进行帧级处理;
步骤S63:使用步骤S5中保存的训练模型参数对待测试视频集合中所有连续的s个镜头使用步骤S3、S4和S5进行处理和预测;每个连续的s个镜头作为一个样本,当模型预测该样本为正样本的概率大于0.5时,判定分类为正样本,否则为负样本;假设某测试视频有q个连续的s镜头,该测试视频的分类为q个样本的分类结果中的大多数分类结果作为该视频的分类。
CN202010758819.XA 2020-07-31 2020-07-31 基于注意力和循环神经网络的立体视频视觉舒适度分类法 Active CN111860691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010758819.XA CN111860691B (zh) 2020-07-31 2020-07-31 基于注意力和循环神经网络的立体视频视觉舒适度分类法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010758819.XA CN111860691B (zh) 2020-07-31 2020-07-31 基于注意力和循环神经网络的立体视频视觉舒适度分类法

Publications (2)

Publication Number Publication Date
CN111860691A true CN111860691A (zh) 2020-10-30
CN111860691B CN111860691B (zh) 2022-06-14

Family

ID=72953560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010758819.XA Active CN111860691B (zh) 2020-07-31 2020-07-31 基于注意力和循环神经网络的立体视频视觉舒适度分类法

Country Status (1)

Country Link
CN (1) CN111860691B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446556A (zh) * 2021-01-27 2021-03-05 电子科技大学 基于表示学习和行为特征的通信网用户呼叫对象预测方法
CN112613486A (zh) * 2021-01-07 2021-04-06 福州大学 基于多层注意力和BiGRU的专业立体视频舒适度分类方法
CN113807318A (zh) * 2021-10-11 2021-12-17 南京信息工程大学 一种基于双流卷积神经网络和双向gru的动作识别方法
CN114124823A (zh) * 2021-10-18 2022-03-01 西安电子科技大学 面向高动态网络拓扑下的自适应路由方法、系统、设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105163111A (zh) * 2015-09-10 2015-12-16 宁波大学 一种基于场景模式分类的立体图像视觉舒适度评价方法
CN108389192A (zh) * 2018-02-11 2018-08-10 天津大学 基于卷积神经网络的立体图像舒适度评价方法
CN109523590A (zh) * 2018-10-22 2019-03-26 福州大学 一种基于样例的3d图像深度信息视觉舒适度评估方法
US20190103182A1 (en) * 2017-09-29 2019-04-04 Apple Inc. Management of comfort states of an electronic device user

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105163111A (zh) * 2015-09-10 2015-12-16 宁波大学 一种基于场景模式分类的立体图像视觉舒适度评价方法
US20190103182A1 (en) * 2017-09-29 2019-04-04 Apple Inc. Management of comfort states of an electronic device user
CN108389192A (zh) * 2018-02-11 2018-08-10 天津大学 基于卷积神经网络的立体图像舒适度评价方法
CN109523590A (zh) * 2018-10-22 2019-03-26 福州大学 一种基于样例的3d图像深度信息视觉舒适度评估方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HUI REN ET AL.: "Effect of dynamic disparity on visual comfort of stereoscopic video", 《2014 IEEE WORKSHOP ON ADVANCED RESEARCH AND TECHNOLOGY IN INDUSTRY APPLICATIONS (WARTIA)》, 8 December 2014 (2014-12-08), pages 1114 - 1117 *
吴志山 等: "基于多尺度失真感知特征的重定向图像质量评估", 《北京航空航天大学学报》, vol. 45, no. 12, 12 August 2019 (2019-08-12), pages 2487 - 2494 *
朱兆琪: "基于视觉注意机制的立体图像舒适度研究", 《中国优秀博硕士学位论文全文数据库(硕士)》, no. 04, 15 April 2019 (2019-04-15), pages 1 - 64 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613486A (zh) * 2021-01-07 2021-04-06 福州大学 基于多层注意力和BiGRU的专业立体视频舒适度分类方法
CN112613486B (zh) * 2021-01-07 2023-08-08 福州大学 基于多层注意力和BiGRU的专业立体视频舒适度分类方法
CN112446556A (zh) * 2021-01-27 2021-03-05 电子科技大学 基于表示学习和行为特征的通信网用户呼叫对象预测方法
CN113807318A (zh) * 2021-10-11 2021-12-17 南京信息工程大学 一种基于双流卷积神经网络和双向gru的动作识别方法
CN113807318B (zh) * 2021-10-11 2023-10-31 南京信息工程大学 一种基于双流卷积神经网络和双向gru的动作识别方法
CN114124823A (zh) * 2021-10-18 2022-03-01 西安电子科技大学 面向高动态网络拓扑下的自适应路由方法、系统、设备
CN114124823B (zh) * 2021-10-18 2023-08-11 西安电子科技大学 面向高动态网络拓扑下的自适应路由方法、系统、设备

Also Published As

Publication number Publication date
CN111860691B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN111860691B (zh) 基于注意力和循环神经网络的立体视频视觉舒适度分类法
CN109902546B (zh) 人脸识别方法、装置及计算机可读介质
CN112597883B (zh) 一种基于广义图卷积和强化学习的人体骨架动作识别方法
CN110929622B (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN109815826B (zh) 人脸属性模型的生成方法及装置
CN110188239B (zh) 一种基于跨模态注意力机制的双流视频分类方法和装置
US11967175B2 (en) Facial expression recognition method and system combined with attention mechanism
CN112149459B (zh) 一种基于交叉注意力机制的视频显著性物体检测模型及系统
CN112446476A (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
Das et al. Where to focus on for human action recognition?
CN110532996A (zh) 视频分类的方法、信息处理的方法以及服务器
CN112070044B (zh) 一种视频物体分类方法及装置
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN106570464A (zh) 一种快速处理人脸遮挡的人脸识别方法及装置
CN112434608B (zh) 一种基于双流结合网络的人体行为识别方法及系统
CN115661943B (zh) 一种基于轻量级姿态评估网络的跌倒检测方法
WO2021073311A1 (zh) 图像识别方法、装置、计算机可读存储介质及芯片
CN112906631B (zh) 一种基于视频的危险驾驶行为检测方法和检测系统
CN112507920B (zh) 一种基于时间位移和注意力机制的考试异常行为识别方法
CN112613486B (zh) 基于多层注意力和BiGRU的专业立体视频舒适度分类方法
CN113239801A (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN114529984A (zh) 一种基于可学习pl-gcn和eclstm的骨骼动作识别方法
CN111401116B (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
CN113239866B (zh) 一种时空特征融合与样本注意增强的人脸识别方法及系统
CN109508668A (zh) 一种镜头类型信息识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant