CN112784698A - 基于深层次时空信息的无参考视频质量评价方法 - Google Patents

基于深层次时空信息的无参考视频质量评价方法 Download PDF

Info

Publication number
CN112784698A
CN112784698A CN202011637358.7A CN202011637358A CN112784698A CN 112784698 A CN112784698 A CN 112784698A CN 202011637358 A CN202011637358 A CN 202011637358A CN 112784698 A CN112784698 A CN 112784698A
Authority
CN
China
Prior art keywords
quality
frame
video
gru
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011637358.7A
Other languages
English (en)
Inventor
殷海兵
刘银豪
周晓飞
王鸿奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011637358.7A priority Critical patent/CN112784698A/zh
Publication of CN112784698A publication Critical patent/CN112784698A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于深层次时空信息的无参考视频质量评价方法,包括如下步骤:S1,内容感知特征提取,利用Resnet‑50预训练的深度神经网络,提取顶层的语义层特征后进行聚合,对特征图进行均值聚合与标准差聚合;S2,对时间记忆效应进行建模,在特征整合方面,采用GRU网络对长期依赖关系进行建模,在质量聚合方面,提出主观启发的时间池化模型并将其嵌入到网络中;现有的NR‑VQA方法无法很好地对VQA任务中的长期依赖关系建模,为了解决这个问题,我们求助于GRU,它是带有门控制的递归神经网络模型,能够集成特征并学习长期依赖关系,本发明中使用GRU集成内容感知功能并预测逐帧质量得分。

Description

基于深层次时空信息的无参考视频质量评价方法
技术领域
本发明涉及图像、视频处理技术领域,尤其是涉及一种基于深度卷积网络的无参考视频质量评价方法。
背景技术
随着具有拍照录像功能的可穿戴设备、智能手机与平板电脑的普及,视频信息的获取和存储变得越来越容易,人们可以随意拍摄不同时长的视频信息,其中不乏大量的失真视频,这极大的影响观众的视觉体验。在整个视频链路中,大部分模块都可以精确度量,如采集、上传、预处理、转码、分发等。然而未知的部分却恰恰是最关键的部分,即用户的视频观看体验到底怎么样。目前行业内的视频质量评估方法分为两大类:客观质量评估与主观质量评估。主观评价方式通过人类视觉系统进行评价,较准确,但不稳定,耗时,且成本较高,难以操作。客观评价方法对人进行建模,通过模型评价图像质量,具有批量处理、结果稳定和可重现的优点。近年来,如何利用计算机技术模拟人类视觉注意力评价机制,正确评价视频质量成为当前研究的热点。在过去的十年中,研究人员提出了众多的评价模型,并应用到很多领域,如图像/视频降噪、图像/视频压缩编码、图像/视频风格迁移等。同时,我们也要注意随着自媒体的传播,拍摄视频存在不确定且混合的失真,而这无疑增加了该领域的研究难度。
视频质量评价对象不受限于对象的类别、尺寸大小、失真类型、个数等,这些不确定因素使得它成为目前计算机视觉和人工智能领域中的一个难题。在传统做法中,研究人员根据提取视频中的抽象特征来表示图像。这些特征包括:对比度、亮度、颜色分布、运动光流等,但在复杂的场景中,传统方法往往不够准确。这是因为这些观察往往限于低级别的特征(例如,颜色和对比度等),而不能准确描述人眼对于视频质量的复杂感知。
近年来,深度卷积神经网络(Convolutional Neural Network,CNN)广泛运用于计算机视觉的各个领域,很多困难的视觉问题都获得了重大的进展。不同于传统方法,深度卷积网络可以从大量的样本中建模并且自动地、端到端地学习到更为本质的特征,从而有效地避免了传统人工建模和设计特征的弊端。在视频质量评价领域,深度卷积网络也被广泛地使用,并且大幅度地提高了视频质量评价的准确性和泛化性,但是由于深度网络需要大量运用的池化操作(例如max-pooling和average-pooling)编码上下文信息,这些方法总是不能很好地保存视频中深层次的信息,即得到提取的视频特征仅仅涉及浅层的语义特征与时域相关信息。而事实上,视频中帧内与帧间的深层次相关信息十分重要,我们人眼对视频的感知与评价是一个十分复杂的过程,单凭一个简单的顶层语义与简单的循环卷积神经网络是不够的。同时,忽略这些深层次的时空信息,往往只能得到次优的结果。
幸运的是,随着深度学习技术的发展,其已成功应用于许多计算机视觉任务中,例如物体检测、语义分割和视频质量评价领域。最近,研究发现将深度卷积网络引入到视频质量评价中,探索时空联合域的深层次时空信息,极大地提升了视频评价的性能。
在具体实现中,仍存在如下技术问题:
1.内容感知特征提取模块仅仅提取了最顶层的特征。然而在主观实验中,实验对象不仅仅关注最顶层的语义特征,在不同的图像中,所关注的图像特征也不同,图像的特征包括边缘、细节等。这导致评价的时候所得到的信息不够全面。
2.对于全局的时序信息,仅仅考虑使用单向的GRU。在主观实验当中,实验对象对于当前帧的质量评价不仅仅受之前帧影响,实际上也受到后续帧的影响。因此,单纯考虑单向的GRU得到的结果是不准确的。
3.时间记忆模型中的窗滑动不考虑帧率,只采取固定的窗。时间记忆模型的窗应根据帧率采取不同大小。
发明内容
为解决现有技术的不足,实现提升视频评价的性能目的,本发明采用如下的技术方案:
基于深层次时空信息的无参考视频质量评价方法,包括如下步骤:
S1,内容感知特征提取,利用Resnet-50预训练的深度神经网络,提取顶层的语义层特征后进行聚合,对特征图进行均值聚合与标准差聚合;
S2,对时间记忆效应进行建模,在特征整合方面,采用GRU网络对长期依赖关系进行建模,在质量聚合方面,提出主观启发的时间池化模型并将其嵌入到网络中。现有的NR-VQA方法无法很好地对VQA任务中的长期依赖关系建模,为了解决这个问题,我们求助于GRU,它是带有门控制的递归神经网络模型,能够集成特征并学习长期依赖关系,本发明中使用GRU集成内容感知功能并预测逐帧质量得分。
进一步的,所述步骤S1的具体内容,包括如下步骤:
S11,设视频具有T帧,将视频帧It(t=1,2,...,T)输入到预训练的CNN模型中,并从其顶部卷积层输出深度语义特征图Mt
Mt=CNN(It)
Mt总共包含C个特征图,然后,对Mt的每个特征图应用空间全局聚合,仅仅将空间全局平均池化操作GPmean应用于Mt会丢弃许多Mt信息,因此我们进一步考虑合并空间全局标准偏差GPstd,以保留Mt中的变化信息;GPmean,GPstd操作后输出特征向量分别为
Figure BDA0002876940630000021
内容感知特征提取中,在使用res5c层特征的基础上,同时提取res4f、res3d层特征,对这些层所提出的特征图采用与res5c特征图相同操作:
Figure BDA0002876940630000031
Figure BDA0002876940630000032
Figure BDA0002876940630000033
Figure BDA0002876940630000034
Figure BDA0002876940630000035
Figure BDA0002876940630000036
S12,将
Figure BDA00028769406300000313
Figure BDA00028769406300000314
串联起来,作为内容感知知觉特征ft
Figure BDA0002876940630000037
其中,
Figure BDA0002876940630000038
表示拼接操作。
进一步的,所述步骤S2中,提取的内容感知特征在输入GRU之前,执行尺寸减少,使用单个全连接层执行尺寸缩减,即4096降维至128维度,提取的内容感知功能具有较高的维度,对于训练GRU而言不容易,因此,将它们送入GRU之前执行尺寸减小,通过与优化过程中的其他步骤一起执行降维操作;
xt=Wfxft+bfx
其中Wfx和bfx是该全连接层的参数;降维后,将缩减后的特征xt(t=1,…,T)送入GRU,将GRU的隐藏状态视为集成特征,其初始值为h0;
根据当前输入xt和先前的隐藏状态ht-1计算出的当前隐藏状态ht,即:
Figure BDA0002876940630000039
Figure BDA00028769406300000310
Figure BDA00028769406300000311
Figure BDA00028769406300000312
最后为充分利用Deeper GRU结构的时间域相关性,为提高信息交互的数据量尝试采用Dual Deeper GRU结构;
Figure BDA0002876940630000041
Figure BDA0002876940630000042
Figure BDA0002876940630000043
Figure BDA0002876940630000044
Figure BDA0002876940630000045
outputs,即通过Dual Deeper GRU模块之后,得到包含更深层次时域长时间相关特征的帧得分,最后通过全连接层进行回归,得到每帧得分;
利用集成功能outputs,可以通过添加单个全连接层来预测帧质量得分qt
qt=Whq(outputs)+bhq
其中,Whq和bhq是权重和偏置参数。
进一步的,所述步骤S2中的主观启发的时间池化模型,将存储器质量元素定义为先前帧中质量得分的最小值;将当前质量元素定义为下一帧中质量得分的基于排序的加权平均值;近似分数被计算为存储器和当前元素的加权平均值;视频质量计算为近似分数的时间平均池。但是,直接将此模型应用于真实失真视频的质量评估存在一些限制。首先,该模型需要可靠的帧质量得分作为输入,这在我们的任务中无法提供。第二,本申请中的模型是不可区分的,因为当前质量元素的定义中基于排序顺序的权重,因此,它无法嵌入到神经网络中,由于我们只能访问总体主观视频质量,因此我们需要学习神经网络而无需帧级监督,因此,为了将预测的帧质量得分qt与视频质量Q连接起来,我们提出了一种新的可区分时间池化模型。
进一步的,将基于排序顺序的权函数替换为可区分权重函数,并将其嵌入网络中,具体地:
为了模仿人类对不良质量事件的容忍度,将第t帧的存储质量元素定义为前几个帧中的最低质量得分:
lt=qt,t=1
Figure BDA0002876940630000046
其中Vprev={max(1,t-τ),…,t-2,t-1}是所考虑帧的索引集,而τ是与时间持续时间有关的超参数;
考虑到受试者对质量下降反应敏锐而对质量改善反应迟钝的事实,在第t帧构造了当前质量元素mt,使用接下来几帧的加权质量得分,其中分配了更大的权重对于较差质量的帧,具体地,通过可分解的softmin函数,即负线性函数和softmax函数的组合,来确定权重
Figure BDA0002876940630000051
Figure BDA0002876940630000052
Figure BDA0002876940630000053
其中Vnex t={t,t+1,…,min(t+τ,T)}是相关帧的索引集;
根据实验,尝试不同窗的效果后发现,τ与帧率相关,即采用的窗大小与视频帧率相关,使τ=int(round(Frame.rate)/2);
通过线性组合内存质量和当前质量元素来近似主观帧质量得分,然后,通过近似分数的时间全局平均池GAP计算总体视频质量Q:
q′t=γlt+(1-γ)mt
Figure BDA0002876940630000054
其中,γ是一个超参数,用于平衡内存和当前元素对近似分数的贡献。
本发明的优势和有益效果在于:
本发明大幅度地提高了视频质量评价的准确性和泛化性,并且融合了视频中帧内与帧间的深层次相关信息,使得评价时所得到的信息更为全面;对于全局的时序信息,采用双向GRU,使得到的结果更为准确;时间记忆模型中的窗滑动,同时考虑帧率,最终提升了视频评价的性能。
附图说明
图1是本发明的网络流程图。
图2是本发明中多尺度帧特征融合结构图。
图3是本发明中双流更深层次RNN结构图。
图4是本发明中基于帧率的自适应平滑局部信息提取模块原理图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1-4所示,基于深层次时空信息的无参考视频质量评价方法的重点,是真实视频的质量评价问题。由于人类是最终用户,因此利用人类视觉系统(HVS)的知识可以帮助建立解决我们问题的客观方法。具体来说,主要是人类对于视频质量的感知分别受到单帧图像内容和短时时间记忆。
本发明主要分为如下模块:内容感知特征提取和时间记忆模型。其中内容感知特征提取模块是利用Resnst-50预训练的深度神经网络,提取顶层的语义层特征后进行聚合,对特征图进行均值聚合与标准差聚合。
对于真实失真视频,所感知的视频质量在很大程度上取决于视频中视频内容。这可以归因于以下原因:失真的复杂性,人类对于失真的容忍阈值以及人类的偏爱不同的视频内容/场景而异。
为了评估真实失真视频的感知质量,上述观察促使我们提取出不仅与失真有关的特征而且对于内容感知相关的特征。我们使用CNN在ImageNet上预训练的图像分类模型,使之具有对于不同内容信息的区分能力。因此,从这些模型中提取的深层功能(例如ResNet)有望实现内容感知。同时,深层特征对失真敏感。因此从预训练的图像分类模型中提取内容感知感知特征是合理的。
首先,假设视频具有T帧,我们将视频帧It(t=1,2,...,T)输入到预训练的CNN模型中,并从其顶部卷积层输出深度语义特征图Mt
Mt=CNN(It)
Mt总共包含C个特征图。然后,我们对Mt的每个特征图应用空间全局聚合。仅仅将空间全局平均池化操作(GPmean)应用于Mt会丢弃许多Mt信息,因此我们进一步考虑合并空间全局标准偏差(GPstd),以保留Mt中的变化信息。GPmean,GPstd操作后输出特征向量分别为
Figure BDA0002876940630000067
Figure BDA0002876940630000061
Figure BDA0002876940630000062
Figure BDA0002876940630000063
Figure BDA0002876940630000064
之后,将
Figure BDA0002876940630000068
Figure BDA0002876940630000069
串联起来,作为内容感知知觉特征ft
Figure BDA0002876940630000065
其中,
Figure BDA0002876940630000066
表示拼接操作。
时间建模是设计目标VQA模型的另一个重要方向。我们从两个方面对时间记忆效应进行建模。在特征整合方面,我们采用GRU网络对我们方法中的长期依赖关系进行建模。在质量聚合方面,本模型提出了一个主观启发的时间池化模型并将其嵌入到网络中。
长时间依赖关系建模:现有的NR-VQA方法无法很好地对VQA任务中的长期依赖关系建模。为了解决这个问题,我们求助于GRU。它是带有门控制的递归神经网络模型,能够集成特征并学习长期依赖关系。具体而言,在本文中,我们考虑使用GRU集成内容感知感知功能并预测逐帧质量得分。
提取的内容感知功能具有较高的维度,对于训练GRU而言不容易。因此,最好在将它们送入GRU之前执行尺寸减小。通过与优化过程中的其他步骤一起执行降维操作,可能是有益的。在这方面,我们使用单个全连接层执行尺寸缩减,即4096降维至128维度。
xt=Wfxft+bfx
其中Wfx和bfx是该全连接层的参数。
降维后,将缩减后的特征xt(t=1,…,T)送入GRU模块。我们将GRU的隐藏状态视为集成特征,其初始值为h0。
根据当前输入xt和先前的隐藏状态ht-1计算出的当前隐藏状态ht,即:
Figure BDA0002876940630000071
Figure BDA0002876940630000072
Figure BDA0002876940630000073
Figure BDA0002876940630000074
最后为充分利用Deeper GRU结构的时间域相关性,为提高信息交互的数据量尝试Dual Deeper GRU结构。
Figure BDA0002876940630000075
Figure BDA0002876940630000076
Figure BDA0002876940630000077
Figure BDA0002876940630000078
Figure BDA0002876940630000081
最终的outputs,即通过Dual Deeper GRU模块之后,得到包含更深层次时域长时间相关特征的帧得分。最后通过全连接层进行回归。得到每帧得分。
利用集成功能outputs,我们可以通过添加单个全连接层来预测帧质量得分qt
qt=Whq(outputs)+bhq
其中,Whq和bhq是权重和偏置参数。
双流更深层次RNN,对于全局的时序信息,考虑到后续帧对之前帧的影响。尝试提出双向GRU模块来尝试,正向128维输入得到32维的关联信息,反向输入得到反向的32维关联信息,最后将正反向关联信息concat得到64维向量。
同时,为进一步提取全局信息,将前向的GRU进行信息交换,采用串联结构构成一个双向更深层次GRU。如图3所示,正向128维输入得到32维的关联信息,将该32维关联信息反向输入GRU网络得到反向的关联信息。这样构成了正反向关联信息的交互,最后,将正反向关联信息concat得到64维向量。
最后,为提高信息交互的数据量,引入后向的GRU,也采用串联结构构成一个Deeper Bidirectional ConvLSTM。首先将反向128维输入得到32维的反向关联信息,再将该32维度反向关联信息再次反向重新输回GRU网络,得到正向的关联信息。这样构成了反正向关联信息的交互,最后,将反正向关联信息concat得到64维向量。
将前后向的conv-GRU得到64维向量进行拼接。即得到全部128维的视频关联信息。
主观启发的时间池化模型:得到每帧的得分之后,则需要考虑到时间记忆模型。其具体原理为在主观实验中,实验对象不能容忍质量差的视频事件。在主观实验中发现了时间记忆效应,即受试者对视频质量的下降做出了强烈反应,并在此时间间隔内提供了较差的质量,但对视频质量的改善却做出了钝化的反应。
其中,本发明采用了一个时间池模型来说明磁滞效应。具体而言,将存储器质量元素定义为先前帧中质量得分的最小值;将当前质量元素定义为下一帧中质量得分的基于排序的加权平均值;近似分数被计算为存储器和当前元素的加权平均值;视频质量计算为近似分数的时间平均池。但是,直接将此模型应用于真实失真视频的质量评估存在一些限制。首先,该模型需要可靠的帧质量得分作为输入,这在我们的任务中无法提供。第二,论文中的模型是不可区分的,因为当前质量元素的定义中基于排序顺序的权重。因此,它无法嵌入到神经网络中。在我们的问题中,由于我们只能访问总体主观视频质量,因此我们需要学习神经网络而无需帧级监督。因此,为了将预测的帧质量得分qt与视频质量Q连接起来,我们提出了一种新的可区分时间池化模型,方法是将中基于排序顺序的权函数替换为可区分权重函数,并将其嵌入网络中。详细如下:
为了模仿人类对不良质量事件的容忍度,将第t帧的存储质量元素定义为前几个帧中的最低质量得分:
lt=qt,t=1
Figure BDA0002876940630000091
其中Vprev={max(1,t-τ),…,t-2,t-1}是所考虑帧的索引集,而τ是与时间持续时间有关的超参数。
考虑到受试者对质量下降反应敏锐而对质量改善反应迟钝的事实,我们在第t帧构造了当前质量元素mt,使用接下来几帧的加权质量得分,其中分配了更大的权重对于较差质量的帧。具体来说,我们通过可分解的softmin函数(负线性函数和softmax函数的组合)来确定权重
Figure BDA0002876940630000092
Figure BDA0002876940630000093
Figure BDA0002876940630000094
其中Vnex t={t,t+1,…,min(t+τ,T)}是相关帧的索引集。
根据实验发现,τ与帧率相关,我们尝试τ=int(round(Frame.rate)/2)。
最后,我们通过线性组合内存质量和当前质量元素来近似主观帧质量得分。然后,通过近似分数的时间全局平均池(GAP)计算总体视频质量Q:
q′t=γlt+(1-γ)mt
Figure BDA0002876940630000095
其中,γ是一个超参数,用于平衡内存和当前元素对近似分数的贡献。
利用本发明的方法,在三大公开数据集训练测试,即KoNViD-1k、CVD2014和LIVE-Qualcomm。其中,KoNViD-1k是包含有1200个视频序列的数据集,并提供480参与的人工标注评分结果;CVD2014包含有234个复杂视频序列帧,包含5个不同场景与78种不同拍摄设备;LIVE-Qualcomm包含有208个高质量分辨率的视频帧序列,包含54个场景与8种不同拍摄设备。
技术方案的技术效果(SROCC)如下表所示:
表1 LIVE-Qualcomm
Figure BDA0002876940630000101
表2 KoNViD-1k
Figure BDA0002876940630000102
表3 CVD2014
Figure BDA0002876940630000103
Figure BDA0002876940630000111
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (5)

1.基于深层次时空信息的无参考视频质量评价方法,其特征在于包括如下步骤:
S1,内容感知特征提取,利用预训练的深度神经网络,提取顶层的语义层特征后进行聚合,对特征图进行均值聚合与标准差聚合;
S2,对时间记忆效应进行建模,在特征整合方面,采用GRU网络对长期依赖关系进行建模,在质量聚合方面,提出主观启发的时间池化模型并将其嵌入到网络中。
2.如权利要求1所述的于深层次时空信息的无参考视频质量评价方法,其特征在于所述步骤
S1的具体内容,包括如下步骤:
S11,设视频具有T帧,将视频帧It(t=1,2,...,T)输入到预训练的CNN模型中,并从其顶部卷积层输出深度语义特征图Mt
Mt=CNN(It)
Mt总共包含C个特征图,然后,对Mt的每个特征图应用空间全局聚合,将空间全局平均池化操作GPmean应用于Mt,合并空间全局标准偏差GPstd;GPmean,GPstd操作后输出特征向量分别为
Figure FDA0002876940620000011
内容感知特征提取中,在使用res5c层特征的基础上,同时提取res4f、res3d层特征,对这些层所提出的特征图采用与res5c特征图相同操作:
Figure FDA0002876940620000012
Figure FDA0002876940620000013
Figure FDA0002876940620000014
Figure FDA0002876940620000015
Figure FDA0002876940620000016
Figure FDA0002876940620000017
S12,将
Figure FDA0002876940620000018
Figure FDA0002876940620000019
串联起来,作为内容感知知觉特征ft
Figure FDA00028769406200000110
其中,
Figure FDA00028769406200000111
表示拼接操作。
3.如权利要求1所述的于深层次时空信息的无参考视频质量评价方法,其特征在于所述步骤S2中,提取的内容感知特征在输入GRU之前,执行尺寸减少,使用单个全连接层执行尺寸缩减;
xt=Wfxft+bfx
其中Wfx和bfx是该全连接层的参数;降维后,将缩减后的特征xt(t=1,…,T)送入GRU,将GRU的隐藏状态视为集成特征,其初始值为h0;
根据当前输入xt和先前的隐藏状态ht-1计算出的当前隐藏状态ht,即:
Figure FDA0002876940620000021
Figure FDA0002876940620000022
Figure FDA0002876940620000023
Figure FDA0002876940620000024
最后采用Dual Deeper GRU结构;
Figure FDA0002876940620000025
Figure FDA0002876940620000026
Figure FDA0002876940620000027
Figure FDA0002876940620000028
Figure FDA0002876940620000029
outputs,即通过Dual Deeper GRU模块之后,得到包含更深层次时域长时间相关特征的帧得分,最后通过全连接层进行回归,得到每帧得分;
利用集成功能outputs,可以通过添加单个全连接层来预测帧质量得分qt
qt=Whq(outputs)+bhq
其中,Whq和bhq是权重和偏置参数。
4.如权利要求3所述的于深层次时空信息的无参考视频质量评价方法,其特征在于所述步骤S2中的主观启发的时间池化模型,将存储器质量元素定义为先前帧中质量得分的最小值;将当前质量元素定义为下一帧中质量得分的基于排序的加权平均值;近似分数被计算为存储器和当前元素的加权平均值;视频质量计算为近似分数的时间平均池。
5.如权利要求4所述的于深层次时空信息的无参考视频质量评价方法,其特征在于将基于排序顺序的权函数替换为可区分权重函数,并将其嵌入网络中,具体地:
将第t帧的存储质量元素定义为前几个帧中的最低质量得分:
lt=qt,t=1
Figure FDA0002876940620000031
其中Vprev={max(1,t-τ),…,t-2,t-1}是所考虑帧的索引集,而τ是与时间持续时间有关的超参数;
在第t帧构造了当前质量元素mt,使用接下来几帧的加权质量得分,其中分配了更大的权重对于较差质量的帧,具体地,通过可分解的softmin函数,即负线性函数和softmax函数的组合,来确定权重
Figure FDA0002876940620000032
Figure FDA0002876940620000033
Figure FDA0002876940620000034
其中Vnex t={t,t+1,…,min(t+τ,T)}是相关帧的索引集;
τ与帧率相关,即采用的窗大小与视频帧率相关,使τ=int(round(Frame.rate)/2);
通过线性组合内存质量和当前质量元素来近似主观帧质量得分,然后,通过近似分数的时间全局平均池GAP计算总体视频质量Q:
q′t=γlt+(1-γ)mt
Figure FDA0002876940620000035
其中,γ是一个超参数,用于平衡内存和当前元素对近似分数的贡献。
CN202011637358.7A 2020-12-31 2020-12-31 基于深层次时空信息的无参考视频质量评价方法 Pending CN112784698A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011637358.7A CN112784698A (zh) 2020-12-31 2020-12-31 基于深层次时空信息的无参考视频质量评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011637358.7A CN112784698A (zh) 2020-12-31 2020-12-31 基于深层次时空信息的无参考视频质量评价方法

Publications (1)

Publication Number Publication Date
CN112784698A true CN112784698A (zh) 2021-05-11

Family

ID=75754969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011637358.7A Pending CN112784698A (zh) 2020-12-31 2020-12-31 基于深层次时空信息的无参考视频质量评价方法

Country Status (1)

Country Link
CN (1) CN112784698A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113411566A (zh) * 2021-05-17 2021-09-17 杭州电子科技大学 一种基于深度学习的无参考视频质量评价方法
CN113473117A (zh) * 2021-07-19 2021-10-01 上海交通大学 一种基于门控循环神经网络的无参考音视频质量评价方法
CN113486821A (zh) * 2021-07-12 2021-10-08 西安电子科技大学 基于时域金字塔的无参考视频质量评价方法
CN113487564A (zh) * 2021-07-02 2021-10-08 杭州电子科技大学 用于用户原创视频的双流时序自适应选择视频质量评价方法
CN113489971A (zh) * 2021-07-19 2021-10-08 上海交通大学 一种全参考音视频客观质量评价方法、系统及终端
CN113554599A (zh) * 2021-06-28 2021-10-26 杭州电子科技大学 一种基于人类视觉效应的视频质量评价方法
CN113810683A (zh) * 2021-08-27 2021-12-17 南京信息工程大学 一种客观评估水下视频质量的无参考评价方法
CN113822856A (zh) * 2021-08-16 2021-12-21 南京中科逆熵科技有限公司 一种基于分层时空域特征表示的端到端无参考视频质量评价方法
CN114449343A (zh) * 2022-01-28 2022-05-06 北京百度网讯科技有限公司 一种视频处理方法、装置、设备及存储介质
CN115510271A (zh) * 2021-06-23 2022-12-23 南京中科逆熵科技有限公司 一种面向内容的动画视频无参考质量评价方法
CN116071691A (zh) * 2023-04-03 2023-05-05 成都索贝数码科技股份有限公司 一种基于内容感知融合特征的视频质量评价方法
WO2023138590A1 (zh) * 2022-01-20 2023-07-27 百果园技术(新加坡)有限公司 无参考的视频质量确定方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160358321A1 (en) * 2015-06-05 2016-12-08 Sony Corporation Full reference image quality assessment based on convolutional neural network
CN109446923A (zh) * 2018-10-10 2019-03-08 北京理工大学 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN111182292A (zh) * 2020-01-05 2020-05-19 西安电子科技大学 无参考视频质量评估方法、系统、视频接收器、智能终端
CN111583213A (zh) * 2020-04-29 2020-08-25 西安交通大学 一种基于深度学习和无参考质量评价的图像生成方法
CN111582654A (zh) * 2020-04-14 2020-08-25 五邑大学 基于深度循环神经网络的服务质量评价方法及其装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160358321A1 (en) * 2015-06-05 2016-12-08 Sony Corporation Full reference image quality assessment based on convolutional neural network
CN109446923A (zh) * 2018-10-10 2019-03-08 北京理工大学 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN111182292A (zh) * 2020-01-05 2020-05-19 西安电子科技大学 无参考视频质量评估方法、系统、视频接收器、智能终端
CN111582654A (zh) * 2020-04-14 2020-08-25 五邑大学 基于深度循环神经网络的服务质量评价方法及其装置
CN111583213A (zh) * 2020-04-29 2020-08-25 西安交通大学 一种基于深度学习和无参考质量评价的图像生成方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113411566A (zh) * 2021-05-17 2021-09-17 杭州电子科技大学 一种基于深度学习的无参考视频质量评价方法
CN115510271B (zh) * 2021-06-23 2024-04-30 南京中科逆熵科技有限公司 一种面向内容的动画视频无参考质量评价方法
CN115510271A (zh) * 2021-06-23 2022-12-23 南京中科逆熵科技有限公司 一种面向内容的动画视频无参考质量评价方法
CN113554599A (zh) * 2021-06-28 2021-10-26 杭州电子科技大学 一种基于人类视觉效应的视频质量评价方法
CN113554599B (zh) * 2021-06-28 2023-08-18 杭州电子科技大学 一种基于人类视觉效应的视频质量评价方法
CN113487564A (zh) * 2021-07-02 2021-10-08 杭州电子科技大学 用于用户原创视频的双流时序自适应选择视频质量评价方法
CN113487564B (zh) * 2021-07-02 2024-04-05 杭州电子科技大学 用于用户原创视频的双流时序自适应选择视频质量评价方法
CN113486821A (zh) * 2021-07-12 2021-10-08 西安电子科技大学 基于时域金字塔的无参考视频质量评价方法
CN113486821B (zh) * 2021-07-12 2023-07-04 西安电子科技大学 基于时域金字塔的无参考视频质量评价方法
CN113489971A (zh) * 2021-07-19 2021-10-08 上海交通大学 一种全参考音视频客观质量评价方法、系统及终端
CN113473117A (zh) * 2021-07-19 2021-10-01 上海交通大学 一种基于门控循环神经网络的无参考音视频质量评价方法
CN113489971B (zh) * 2021-07-19 2022-08-23 上海交通大学 一种全参考音视频客观质量评价方法、系统及终端
CN113473117B (zh) * 2021-07-19 2022-09-02 上海交通大学 一种基于门控循环神经网络的无参考音视频质量评价方法
CN113822856A (zh) * 2021-08-16 2021-12-21 南京中科逆熵科技有限公司 一种基于分层时空域特征表示的端到端无参考视频质量评价方法
CN113810683A (zh) * 2021-08-27 2021-12-17 南京信息工程大学 一种客观评估水下视频质量的无参考评价方法
WO2023138590A1 (zh) * 2022-01-20 2023-07-27 百果园技术(新加坡)有限公司 无参考的视频质量确定方法、装置、设备和存储介质
CN114449343A (zh) * 2022-01-28 2022-05-06 北京百度网讯科技有限公司 一种视频处理方法、装置、设备及存储介质
CN116071691A (zh) * 2023-04-03 2023-05-05 成都索贝数码科技股份有限公司 一种基于内容感知融合特征的视频质量评价方法

Similar Documents

Publication Publication Date Title
CN112784698A (zh) 基于深层次时空信息的无参考视频质量评价方法
CN109874053B (zh) 基于视频内容理解和用户动态兴趣的短视频推荐方法
US10530991B2 (en) Real-time semantic-aware camera exposure control
Fang et al. Video saliency incorporating spatiotemporal cues and uncertainty weighting
CN104715023B (zh) 基于视频内容的商品推荐方法和系统
Sun et al. Photo assessment based on computational visual attention model
CN111310676A (zh) 基于CNN-LSTM和attention的视频动作识别方法
CN110765854B (zh) 一种视频动作识别方法
GB2595558A (en) Exposure defects classification of images using a neural network
CN106993188B (zh) 一种基于多人脸视频显著性的hevc压缩编码方法
CN112906631B (zh) 一种基于视频的危险驾驶行为检测方法和检测系统
CN111860691B (zh) 基于注意力和循环神经网络的立体视频视觉舒适度分类法
CN114463218B (zh) 一种基于事件数据驱动的视频去模糊方法
Chen et al. Multilevel model for video object segmentation based on supervision optimization
CN112418032A (zh) 一种人体行为识别方法、装置、电子设备及存储介质
CN113810683B (zh) 一种客观评估水下视频质量的无参考评价方法
Guan et al. End-to-end blind video quality assessment based on visual and memory attention modeling
Li et al. Asynchronous spatiotemporal spike metric for event cameras
Zhang et al. HVS revisited: A comprehensive video quality assessment framework
CN112488165A (zh) 一种基于深度学习模型的红外行人识别方法及系统
CN116261009A (zh) 智能转化影视受众的视频检测方法、装置、设备及介质
CN115705706A (zh) 视频处理方法、装置、计算机设备和存储介质
CN110211146A (zh) 视交叉仿真的视频前景分割方法及装置
CN117252832B (zh) 一种超声结节实时检测方法、系统、设备及存储介质
Abeysinghe et al. Video colorization dataset and benchmark

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination