CN108235003B - 基于3d卷积神经网络的立体视频质量评价方法 - Google Patents
基于3d卷积神经网络的立体视频质量评价方法 Download PDFInfo
- Publication number
- CN108235003B CN108235003B CN201810225859.0A CN201810225859A CN108235003B CN 108235003 B CN108235003 B CN 108235003B CN 201810225859 A CN201810225859 A CN 201810225859A CN 108235003 B CN108235003 B CN 108235003B
- Authority
- CN
- China
- Prior art keywords
- video
- neural network
- convolutional neural
- quality
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
- G06T2207/10021—Stereoscopic video; Stereoscopic image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于3D卷积神经网络的立体视频质量评价方法,步骤如下:数据预处理;训练3D卷积神经网络;质量分数融合:将整个测试视频随机分为两部分,一部分用于3D CNN模型的训练,另一部分用于模型的测试;在3D CNN模型的训练过程之后,从测试立体视频中获得每个输入视频块的预测分数,为获得视频整体评价得分,采用考虑全局时间信息的质量分数融合策略:首先,利用平均池化将空间维度上的立方体级别分数进行整合;为模拟全局时间信息,定义基于运动强度计算每个片段的权重,然后计算立体视频每段时间维上运动强度占总运动强度的权重,最后,将视频级预测分数汇总为每段时间维上质量分数的加权和,得到立体视频的融合质量分数。
Description
技术领域
本发明属视频处理领域,涉及立体视频质量评价方法。
背景技术
如今,各个领域如娱乐和教育都存在着大量的立体视频。视觉质量是立体视频的一个基本而复杂的特征,它与用户的体验质量高度相关;在立体视频的连续制作阶段包括处理,压缩,传输和显示等,视觉质量可能会受到不同程度的损害。因此,立体视频质量评价(Stereoscopic Video Quality Assessment,SVQA)的研究在立体视频系统的发展中起着重要的作用。为了达到更高的效率和可行性,非主观和自动客观立体视频质量评价方法是非常需要的。主观评价方法不仅费时费力,且易受多种因素的干扰,评价结果相对不稳定。比较主观评价,客观评价使用软件评价立体视频的质量,不需参与者和大量的主观试验,操作简单,且与主观评价高度相关。
根据可用的原始视频信息的数量,立体视频质量评价方法主要分为三种:全参考(Full Reference,FR),简化参考(Reduced Reference,RR)和无参考(noreference,NR)。无参考方法可以在没有任何参考内容的情况下评估测试的立体视频的质量,而全参考方法和RR方法需要原始视频或其部分信息。然而,参考视频在大多数实际应用中不可用,只有无参考方法才有可能满足实际需求。
发明内容
本发明的目的在于建立一个充分考虑相邻视频帧运动信息的立体视频质量评价方法。本发明提出的立体视频质量评价方法,提出基于深度学习卷积神经网络(Convolutional Neural Networks,CNN)的立体视频质量评估指标,构建一个3D CNN架构来学习无参考立体视频质量评价任务的时空特征,对与立体视频质量有关的信息进行整合,进而可以做出更加全面、准确的客观评价。技术方案如下:
一种基于3D卷积神经网络的立体视频质量评价方法,步骤如下:
第一步.数据预处理
(1)差值视频:对于立体视频的左视频和右视频做差值,计算差值视频,得出卷积网络的原始视频;
(2)数据集增强:将原始视频在空间和时间维度上分割,导出多个低分辨率的短视频立方体;标记这些立方体,获得有效的训练数据;
第二步.训练3D卷积神经网络
(1)3D卷积:通过将三维卷积核与由多个相邻帧组成的立方块进行卷积来完成3D卷积,确保时间信息在整个网络中得到提取和保存,在卷积完成之后,执行加性偏差项和非线性激励函数以获得特征图;
(2)3D池化:池化层基于局部相关性原理对从卷积层传输的特征映射进行二次采样,池化操作输出特征图的某个位置处的相邻单元的汇总统计量;
(3)3D CNN架构:构建六层的3D CNN架构来自动有效地捕获本地立体视频质量评价任务的时空特征,架构包括两个3D卷积层,两个3D汇集层和两个完全连接层;在输入视频通过卷积层之后,3D最大池化层对3D特征图进行二次采样,再使用随机梯度下降(Stochastic gradient descent,SGD)优化器对视频块进行训练,输出每个视频块的预测分数;
第三步.质量分数融合
将整个测试视频随机分为两部分,一部分用于3D CNN模型的训练,另一部分用于模型的测试;在3D CNN模型的训练过程之后,从测试立体视频中获得每个输入视频块的预测分数,为获得视频整体评价得分,采用考虑全局时间信息的质量分数融合策略:首先,利用平均池化将空间维度上的立方体级别分数进行整合;为模拟全局时间信息,定义基于运动强度计算每个片段的权重,然后计算立体视频每段时间维上运动强度占总运动强度的权重,最后,将视频级预测分数汇总为每段时间维上质量分数的加权和,得到立体视频的融合质量分数。
本发明采用基于运动强度的时间维度分数融合方法,而不是采用包含全局时间信息的简单平均融合,并且模拟运动强度对立体视频质量的影响。
本发明提出的基于3D CNN的端到端无参考立体视频质量评价方法,不仅可以有效地建立局部时空信息,而且可以有效地建立三维差分视频块作为输入的全局时间信息。在两个具有挑战性的立体视频数据库上的大量实验已经表明,我们提出的方法与人类感知高度相关,并且明显优于现有算法。另外,在没有复杂的预处理和GPU加速的情况下,与先前的方法相比,我们提出的方法在计算上是更高效的。
附图说明
图1 3D卷积流程图
图2 3D CNN机构的SVQA框架
具体实施方式
一.数据预处理
(1)差值视频:
计算立体视频位置(x,y,z)处的左视图和右视图的差值视频,计算公式如下:
DL(x,y,z)=|VL(x,y,z)-VR(x,y,z)| (1)
其中VL和VR分别表示为立体视频位置(x,y,z)处的左视图和右视图,DL表示差值视频。
(2)数据集增强:
我们用32的步幅滑动一个32×32的盒子,以空间维度裁剪整个视频,并在时间维度上选择步幅为8的帧,通过将原始视频在空间和时间维度上分割,导出许多低分辨率的短视频立方体。每个立方视频的大小设置为10×32×32,即10帧,每帧分辨率为32×32。在本方案中,在10个连续帧的相同位置处裁剪32×32个矩形框,产生具有视觉感知信息的立方体。然后,标记这些立方体,获得有效的训练数据。因此,我们获得每个视频的立方视频集如下:
Pcubic=[SP(1),SP(2),SP(3),SP(4)] (2)
其中C是一个10×32×32立方体贴片,SP(i)表示时间维度上的第i个节段。最终,在NAMA3DS1-COSPAD1数据库的基础上构建了一个由204000个视频立方体组成的训练集,这个数据库是原始数据库的2040倍。
二.3D卷积神经网络
(1)3D卷积:CNN中卷积层所采用的卷积是输入数据与多个核函数间产生特征映射的一种特殊的线性运算。在此基础上,通过将3D卷积核与由多个相邻帧组成的立方块进行卷积来完成3D卷积,确保时间信息在整个网络中得到提取和保存。计算公式如下:
其中k表示连接到当前卷积核的(l-1)层中的特征映射的索引,表示第(l-1)层中的第k个3D特征映射,是第i个3D卷积核层在上卷积。在卷积完成之后,执行加性偏差项和非线性激励函数以获得最终特征图。第l层中的第i个特征图给出计算公式为:
(2)3D池化:池化层基于局部相关性原理对从卷积层传输的特征映射进行二次采样。池化操作输出特征图的某个位置处的相邻单元的汇总统计量,减少数据量的同时保留有价值的信息。本发明应用3D池化来保持立体视频的空间和时间维度上的不变性。3D池化操作表示为:
(3)3D CNN架构:构建共六层的3D CNN架构来自动有效地捕获本地立体视频质量评价任务的时空特征,包括两个3D卷积层C1,C2,两个3D汇集层S1,S2和两个完全连接层FC1,FC2。经过数据预处理后,考虑将多个10×32×32(时间维度3和空间维度7×7)立方体视频块作为3D CNN模型的输入。第一3D卷积层卷积将输入数据与2×3×3的内核,而第二三维卷积层具有过滤器以2×3×3随着C1和C2的层的核尺寸,多个3D特征地图分层产生代表立体视频。每次卷积之后,3D最大池化层对3D特征图进行二次采样,同时降低了特征地图在空间和时间维度上的分辨率。具体来说,两个3D池化层的内核大小是3×3×3和2×8×8。最后,所提出的网络以两个完全连接的层结束:FC1包含512个神经元以将3D特征图平坦化为512-D特征向量,并且FC2仅包含1个神经元以预测对应于输入立方体视频的质量的立方体级分数.
使用SGD优化器对小视频模型进行训练,小视频模型大小为128,应用牛顿动量0.9。学习率初始化为0.001。最终的网络共有215361个参数,并且该模型中的所有可训练参数都被随机初始化,并由在线误差反向传播算法进行训练。整流器线性单元用于非线性C和FC层的激励函数。
在完全连接的层中使用丢失策略,将输入单位降低0.5,并且采用由原始成本函数和正则化项组成的目标函数如下:
f(xi)表示预测分数,yi表示实际质量分数,λ是正则化参数,此外,在每个卷积和之后激励之间使用批量归一化来加速网络训练。
三.质量分数融合
采用考虑全局时间信息的质量分数融合策略。首先,利用平均池化来将空间维度上的立方体级别分数进行整合。由此,每个视频获得分数集合{S1,S2,S3,S4},并且Si表示每个立体视频中的第i个分段的质量。为了模拟全局时间信息,我们基于运动强度计算每个片段的权重。为了提高效率,一个简单的获取运动强度的方法被定义为:
假设表示立体视频的第i段在时间维上的运动强度,则第i段的相应权重表示为:
其中i=4。最后,将视频级预测分数汇总如下:
其中Si是空间维度上立方体贴片平均的第i段的质量得分。本发明采用基于运动强度的时间维度分数融合方法,而不是采用包含全局时间信息的简单平均融合,并且模拟运动强度对立体视频质量的影响,最终得到质量评价结果。
Claims (1)
1.一种基于3D卷积神经网络的立体视频质量评价方法,步骤如下:
第一步.数据预处理
(1)差值视频:对于立体视频的左视频和右视频做差值,计算差值视频,得出卷积网络的原始视频;
(2)数据集增强:将原始视频在空间和时间维度上分割,导出多个低分辨率的短视频立方体;标记这些立方体,获得有效的训练数据;
第二步.训练3D卷积神经网络
(1)3D卷积:通过将三维卷积核与由多个相邻帧组成的立方块进行卷积来完成3D卷积,确保时间信息在整个网络中得到提取和保存,在卷积完成之后,执行加性偏差项和非线性激励函数以获得特征图;
(2)3D池化:池化层基于局部相关性原理对从卷积层传输的特征映射进行二次采样,池化操作输出特征图的某个位置处的相邻单元的汇总统计量;
(3)3D 卷积神经网络架构:构建六层的3D 卷积神经网络架构来自动有效地捕获本地立体视频质量评价任务的时空特征,架构包括两个3D卷积层,两个3D汇集层和两个完全连接层;在输入视频通过卷积层之后,3D最大池化层对3D特征图进行二次采样,再使用随机梯度下降(Stochastic gradient descent,SGD)优化器对视频块进行训练,输出每个视频块的预测分数;
第三步.质量分数融合
将整个测试视频随机分为两部分,一部分用于3D 卷积神经网络模型的训练,另一部分用于模型的测试;在3D 卷积神经网络模型的训练过程之后,从测试立体视频中获得每个输入视频块的预测分数,为获得视频整体评价得分,采用考虑全局时间信息的质量分数融合策略:首先,利用平均池化将空间维度上的立方体级别分数进行整合;为模拟全局时间信息,定义基于运动强度计算每个片段的权重,然后计算立体视频每段时间维上运动强度占总运动强度的权重,最后,将视频级预测分数汇总为每段时间维上质量分数的加权和,得到立体视频的融合质量分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810225859.0A CN108235003B (zh) | 2018-03-19 | 2018-03-19 | 基于3d卷积神经网络的立体视频质量评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810225859.0A CN108235003B (zh) | 2018-03-19 | 2018-03-19 | 基于3d卷积神经网络的立体视频质量评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108235003A CN108235003A (zh) | 2018-06-29 |
CN108235003B true CN108235003B (zh) | 2020-03-06 |
Family
ID=62659629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810225859.0A Active CN108235003B (zh) | 2018-03-19 | 2018-03-19 | 基于3d卷积神经网络的立体视频质量评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108235003B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726803B (zh) * | 2019-01-10 | 2021-06-29 | 广州小狗机器人技术有限公司 | 池化方法、图像处理方法及装置 |
CN109831664B (zh) * | 2019-01-15 | 2020-11-27 | 天津大学 | 基于深度学习的快速压缩立体视频质量评价方法 |
CN111860064B (zh) * | 2019-04-30 | 2023-10-20 | 杭州海康威视数字技术股份有限公司 | 基于视频的目标检测方法、装置、设备及存储介质 |
CN110139169B (zh) * | 2019-06-21 | 2020-11-24 | 上海摩象网络科技有限公司 | 视频流的质量评估方法及其装置、视频拍摄系统 |
CN112199564A (zh) * | 2019-07-08 | 2021-01-08 | Tcl集团股份有限公司 | 一种信息过滤方法、装置及终端设备 |
CN113724182A (zh) * | 2020-05-21 | 2021-11-30 | 无锡科美达医疗科技有限公司 | 基于扩张卷积与注意力机制的无参考视频质量评价方法 |
CN113822856A (zh) * | 2021-08-16 | 2021-12-21 | 南京中科逆熵科技有限公司 | 一种基于分层时空域特征表示的端到端无参考视频质量评价方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105160678A (zh) * | 2015-09-02 | 2015-12-16 | 山东大学 | 基于卷积神经网络的无参考立体图像质量评估方法 |
CN107123123A (zh) * | 2017-05-02 | 2017-09-01 | 电子科技大学 | 基于卷积神经网络的图像分割质量评价方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009135686A (ja) * | 2007-11-29 | 2009-06-18 | Mitsubishi Electric Corp | 立体映像記録方法、立体映像記録媒体、立体映像再生方法、立体映像記録装置、立体映像再生装置 |
JP2017005480A (ja) * | 2015-06-09 | 2017-01-05 | シャープ株式会社 | 立体動画像処理装置、立体動画像処理方法、立体動画像処理プログラム、および記録媒体 |
CN107194559B (zh) * | 2017-05-12 | 2020-06-05 | 杭州电子科技大学 | 一种基于三维卷积神经网络的工作流识别方法 |
-
2018
- 2018-03-19 CN CN201810225859.0A patent/CN108235003B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105160678A (zh) * | 2015-09-02 | 2015-12-16 | 山东大学 | 基于卷积神经网络的无参考立体图像质量评估方法 |
CN107123123A (zh) * | 2017-05-02 | 2017-09-01 | 电子科技大学 | 基于卷积神经网络的图像分割质量评价方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108235003A (zh) | 2018-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108235003B (zh) | 基于3d卷积神经网络的立体视频质量评价方法 | |
CN110555434B (zh) | 一种局部对比和全局指导的立体图像视觉显著性检测方法 | |
CN110060236B (zh) | 基于深度卷积神经网络的立体图像质量评价方法 | |
CN109360178A (zh) | 基于融合图像的无参考立体图像质量评价方法 | |
CN111563418A (zh) | 一种基于注意力机制的非对称多模态融合显著性检测方法 | |
CN108389192A (zh) | 基于卷积神经网络的立体图像舒适度评价方法 | |
CN111681178B (zh) | 一种基于知识蒸馏的图像去雾方法 | |
CN111931624A (zh) | 基于注意力机制的轻量级多分支行人重识别方法及系统 | |
CN109831664B (zh) | 基于深度学习的快速压缩立体视频质量评价方法 | |
CN108391121A (zh) | 一种基于深度神经网络的无参考立体图像质量评价方法 | |
CN112906631B (zh) | 一种基于视频的危险驾驶行为检测方法和检测系统 | |
CN107635136A (zh) | 基于视觉感知和双目竞争的无参考立体图像质量评价方法 | |
CN110674925B (zh) | 基于3d卷积神经网络的无参考vr视频质量评价方法 | |
CN113610046B (zh) | 一种基于深度视频联动特征的行为识别方法 | |
CN108259893B (zh) | 基于双流卷积神经网络的虚拟现实视频质量评价方法 | |
CN112651360B (zh) | 一种小样本下骨架动作识别方法 | |
CN111882516B (zh) | 一种基于视觉显著性和深度神经网络的图像质量评价方法 | |
CN109409380B (zh) | 一种基于双学习网络的立体图像视觉显著提取方法 | |
CN115205196A (zh) | 基于孪生网络与特征融合的无参考图像质量评价方法 | |
CN112507920A (zh) | 一种基于时间位移和注意力机制的考试异常行为识别方法 | |
CN113554599A (zh) | 一种基于人类视觉效应的视频质量评价方法 | |
CN107330873A (zh) | 基于多尺度双目融合和局部特征提取的立体图像质量客观评价方法 | |
CN114647752A (zh) | 基于双向可切分深度自注意力网络的轻量化视觉问答方法 | |
CN114187261A (zh) | 一种基于多维注意力机制的无参考立体图像质量评价方法 | |
CN110738645B (zh) | 基于卷积神经网络的3d图像质量检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |