CN113902992A

CN113902992A - 一种视频质量评估方法、装置及存储介质

Info

Publication number: CN113902992A
Application number: CN202111179431.5A
Authority: CN
Inventors: 甘津瑞; 卢卫疆; 张国梁; 张祥全; 张驯
Original assignee: STATE GRID GASU ELECTRIC POWER RESEARCH INSTITUTE; State Grid Corp of China SGCC; State Grid Gansu Electric Power Co Ltd; Global Energy Interconnection Research Institute
Current assignee: STATE GRID GASU ELECTRIC POWER RESEARCH INSTITUTE; State Grid Corp of China SGCC; State Grid Gansu Electric Power Co Ltd; Global Energy Interconnection Research Institute
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2022-01-07

Abstract

本发明公开了一种视频质量评估方法、装置及存储介质，该方法包括：获取视频数据；根据空间金字塔采样对所述视频数据进行处理，得到子视频数据；对子视频数据进行RGB流分析和梯度流分析，得到RGB视频数据和梯度视频数据；对RGB视频数据和梯度视频数据进行时空建模，得到视频数据的隐向量；将隐向量输入至输出层中，得到视频数据的评估结果。通过实施本发明，采用空间金字塔采样策略来增强特征的表示能力；同时采用包含梯度流和RGB流的双流处理方案，由此可以捕捉到图像的大部分更高层次的含义，使其更适合视频质量异常的判断。此外，还采用了时空建模，考虑了视频帧间的时间连续性，从而提高了视频质量评估的准确性。

Description

一种视频质量评估方法、装置及存储介质

技术领域

本发明涉及视频分析技术领域，具体涉及一种视频质量评估方法、装置及存储介质。

背景技术

视频监控系统体积小，工作稳定，给生产带来方便。比如在一些相对恶劣的环境中可以代替人力进行监控，可以节省大量的人力资源成本。此外，采用视频监控不会产生视觉疲劳等物理缺陷，确保生产的安全性。视频监控技术在各个领域的应用越来越广泛，已成为现代企业科学管理、节能降耗、增效的有力工具。针对各个行业的应用，视频监控可以提供对各种重要设备的全时监控，并结合智能算法给出准确、智能的决策。

但是，在视频监控设备的图像采集过程中，难免会受到各种外界干扰因素的影响。例如，由风或其他不可抗拒因素引起的相机抖动会导致图像质量模糊。这种图像退化会给后续的算法模块带来巨大的挑战，并给出错误的决策。任何成像质量异常(例如输出图像的失真或抖动)都会严重影响监控系统的可靠性、可用性和稳定性。因此，如何及时了解成像质量，进一步判断其异常与否，是日常维护中必不可少的。

一般来说，捕获的视频图像的质量与监控设备的状态直接相关。旧的或出现故障的相机或镜头会导致聚焦、亮度、增益或色偏异常，甚至视频信号完全丢失。传输失败、接触不良或电磁干扰会导致噪声覆盖图像；例如，条纹和雪花。从历史上看，判断成像质量的任何异常大多是手动任务，这使得它昂贵、耗时、有些主观，而且随着监控电力系统规模的增加，手动判断的实用性也越来越低。因此，如何对视频质量进行判断并提高视频质量评估的效率是目前亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供了涉及一种视频质量评估方法、装置及存储介质，以解决现有技术中采用人工布局对电动汽车电机控制器进行设计费时费力的技术问题。

本发明提出的技术方案如下：

本发明实施例第一方面提供一种视频质量评估方法，包括：获取视频数据；根据空间金字塔采样对所述视频数据进行处理，得到子视频数据；对所述子视频数据进行RGB流分析和梯度流分析，得到RGB视频数据和梯度视频数据；对所述RGB视频数据和梯度视频数据进行时空建模，得到所述视频数据的隐向量；将所述隐向量输入至输出层中，得到所述视频数据的评估结果。

可选地，根据空间金字塔采样对所述视频数据进行处理，得到子视频数据，包括：对所述视频数据的每帧图像进行空间金字塔分区，得到每帧图像的多个区块图像；根据每帧图像之间的时间连续性，将多个区块分别进行连接，得到所述视频数据的子视频数据。

可选地，所述空间金字塔分区采用2^L×2^L对每帧图像进行分区，L＝0，1，2。

可选地，对所述RGB视频数据和梯度视频数据进行时空建模，得到所述视频数据的隐向量，包括：根据深度卷积神经网络对所述RGB视频数据和梯度视频数据进行时空特征提取，得到相应子视频数据的特征序列；根据自动编码器对所述特征序列进行特征转换；根据循环神经网络对特征转换后的特征序列进行计算，得到所述视频数据的隐向量。

可选地，所述深度卷积神经网络为三维卷积神经网络，所述三维卷积神经网络包括三维卷积层和平均池化层；所述循环神经网络为长短期记忆网络。

可选地，所述输出层包括两个全连接层和一个softmax层。

本发明实施例第二方面提供一种视频质量评估装置，包括：数据获取模块，用于获取视频数据；处理模块，用于根据空间金字塔采样对所述视频数据进行处理，得到子视频数据；分析模块，用于对所述子视频数据进行RGB流分析和梯度流分析，得到RGB视频数据和梯度视频数据；时空建模模块，用于对所述RGB视频数据和梯度视频数据进行时空建模，得到所述视频数据的隐向量；评估模块，用于将所述隐向量输入至输出层中，得到所述视频数据的评估结果。

可选地，所述时空建模模块包括：特征提取模块，用于根据深度卷积神经网络对所述RGB视频数据和梯度视频数据进行时空特征提取，得到相应子视频数据的特征序列；特征转换模块，用于根据自动编码器对所述特征序列进行特征转换；隐向量计算模块，用于根据循环神经网络对特征转换后的特征序列进行计算，得到所述视频数据的隐向量。

本发明实施例第三方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如本发明实施例第一方面及第一方面任一项所述的视频质量评估方法。

本发明实施例第四方面提供一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如本发明实施例第一方面及第一方面任一项所述的视频质量评估方法。

本发明提供的技术方案，具有如下效果：

本发明实施例提供的视频质量评估方法、装置及存储介质，采用空间金字塔采样策略来增强特征的表示能力。基于这些越来越精细的空间区域的深层架构不仅对变化具有鲁棒性，而且对局部显着性占主导地位的类别也更具辨别力；同时采用包含梯度流和RGB流的双流处理方案，由此可以捕捉到图像的大部分更高层次的含义，使其更适合视频质量异常的判断。此外，还采用了时空建模，考虑了视频帧间的时间连续性，从而提高了视频质量评估的准确性。

本发明实施例提供的视频质量评估方法、装置及存储介质，融合空间金字塔采用、三维卷积神经网络、自动编码器以及长短期记忆网络增强了视频的表示能力。其中，金字塔采样将视频数据划分为子视频，之后利用预训练的3D卷积网络进行时空特征提取；然后在时间维度上进行池化操作并拉伸得到特征向量，作为AE－RNN模块的输入；在AE－RNN模块中，每个时间段得到的隐藏层特征向量使用简化的RNN网络来考虑时间维度相关性；最后，将隐藏层的输出送入分类器，得到视频质量判断。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的视频质量评估方法的流程图；

图2是根据本发明另一实施例的视频质量评估方法的流程图；

图3是根据本发明实施例的视频质量评估装置的结构框图；

图4是根据本发明另一实施例的视频质量评估装置的结构框图；

图5是根据本发明实施例提供的计算机可读存储介质的结构示意图；

图6是根据本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

正如在背景技术中所述，目前大都采用人工对视频质量进行评估，其通常单独分析捕获的视频图像，忽略了视频帧间的时间连续性。事实上，视频序列比单个图像包含更多的信息。

基于此，本发明实施例提供一种视频质量评估方法，如图1和图2所示，该方法包括如下步骤：

步骤S101：获取视频数据；具体地，该视频数据可以是从电力系统的监控设备中获取的待评估的视频数据；也可以是从其他设备中获取的待评估的视频数据，本发明实施例对此不做限定。

步骤S102：根据空间金字塔采样对视频数据进行处理，得到子视频数据；具体地，为了对视频数据中的每帧图像中的局部特征进行编码，并为视频的异常判断形成一个整体紧凑的深度表示，可以采用空间金字塔采样策略对视频数据进行处理，从而能够增强特征的表示能力。

在一实施例中，对视频数据的每帧图像进行空间金字塔分区，得到每帧图像的多个区块图像；根据每帧图像之间的时间连续性，将多个区块分别进行连接，得到视频数据的子视频数据。

具体地，对于视频数据，其通常会包含多帧图像，采用空间金字塔采样对视频数据进行处理时，可以以每16帧图像为一组，采用空间金字塔采用对16帧图像中的每帧图像分别进行分区。其中，分区时可以采用2^L×2^L进行计算，L＝0，1，2。具体对于每一帧图像分别进行2⁰×2⁰、2¹×2¹和2²×2²的分区，例如，对于第一帧图像，进行2⁰×2⁰＝1的分区时，由于分区是1，即不进行分区，或者说分区后还是一整帧图像；进行2¹×2¹＝4的分区时，是将一整帧图像分为4块，每块包含图像的一部分，4块共同构成了一整帧图像；进行2²×2²＝16的分区时，是将一整帧图像分为16块，每块包含图像的一部分，16块共同构成了一整帧图像。由此，对于第一帧图像进行空间金字塔采样后，可以总共分区得到1+4+16＝21张图像。

将一组(16帧图像)中的每帧图像分别进行分区得到21张图像后，可以将对应部分的图像按照时间顺序排列，如将16帧图像分别分区得到的一整帧图像排列在一起，作为包含16帧图像视频数据的一个子视频；然后将16帧图像分别分区得到的四分之一图像对应排列在一起，如将分区得到的左上角的图像按照时间顺序排列在一起，得到一个子视频，然后对于右上角、左下角以及右下角的也对应排列，分别得到一个子视频；最后将分区得到的十六分之一图像也类似对应排列在一起；由此，通过对16帧图像的分区以及按照时间顺序重新排列能够得到21个子视频数据。在后续处理时，可以以每16帧图像得到的21一个子视频数据作为一组，如获取的视频数据包括64帧图像时，则得到的子视频数据包括4组。

步骤S103：对子视频数据进行RGB流分析和梯度流分析，得到RGB视频数据和梯度视频数据；具体地，图像表示的充分性和多样性有利于对视频的准确评估。其中，像素的颜色和强度是原始和主要信息，反应图像质量。此外，像素之间的结构模式也会产生有待探索的有用信息。由于图像梯度能明确反映图像的高频信息，因此通过对图像进行梯度流分析能显著提高性能。

在一实施例中，对于得到的每组子视频数据可以分别采用RGB流分析和梯度流分析，得到每组子视频对应的RGB视频数据和梯度视频数据。RGB流捕捉颜色或饱和度异常，而梯度流突出显示高频变化。采用双流模式处理能够组合来自多个来源的信息(例如，动作识别)或者说捕获不同级别的输入信息，从而提高评估准确性。具体地，RGB流视频数据能表示图像强度和颜色的变化，而梯度流视频数据侧重于提取结构特征的细节，通过双流处理可以捕捉到图像的大部分更高层次的含义，使得到的视频数据更适合视频质量异常的判断。

步骤S104：对RGB视频数据和梯度视频数据进行时空建模，得到视频数据的隐向量；具体地，视频帧质量的下降往往是由于细节的模糊，特别是在光照条件不理想的情况下，给人类视觉带来很大的麻烦。同时也丢失了很多细节信息。由此，采用时空建模的方式增强表示能力。其中时空建模主要包括时空特征提取和远程上下文建模。

在一实施例中，首先采用深度卷积神经网络对RGB视频数据和梯度视频数据进行时空特征提取，得到相应子视频数据的特征序列，其中，深度卷积神经网络可以采用三维卷积神经网络实现。具体地，在提取时，每次可以提取一组子视频的特征序列，由此可以将其对应的RGB视频数据和梯度视频数据作为两个输入，通过深度卷积神经网络的卷积和池化操作，可以得到一组子视频的特征序列。当视频数据中包括多组子视频数据时，通过深度卷积神经网络可以得到多个特征序列。

具体地，基于GPU的深度卷积特征提取比传统的词袋、Fisher向量和稀疏编码模型快得多，该深度卷积神经网络采用基于GPU的深度卷积特征提取，对于输入的两组RGB视频数据和梯度视频数据应用3D卷积滤波器，提取“FC6”层的响应来提取C3D特征。之后将卷积后的数据进行池化处理，采用时间平均池化操作，以保持片段内的局部排序结构。然后池化结果作为相应片段的特征向量。

在一实施例中，对于提取的特征，采用自动编码器(AutoEncoder，AE)对其进行特征转换，从而探索隐藏在其中的细节信息。其中，自动编码器中的损失函数为重构误差，在训练阶段可以使用替代优化方式优化该损失函数。

在一实施例中，在经过自动编码器的处理之后，采用循环神经网络(RecurrentNeural Network，RNN)对特征转换后的特征序列进行计算，得到视频数据的隐向量。其中，循环神经网络采用长短期记忆网络，该神经网络能够有效的沿序列实现远程上下文建模。对于特征转换得到的一个特征序列，可以作为长短期记忆网络的输入序列。如给定一个输入序列x＝(x₁，x₂，···，x_T)，x_t∈R^d，t∈[1，T]，可以通过复合函数通过对输入序列计算得到一个隐藏向量序列h＝(h₁，h₂，···，h_T)。其中，循环神经网络中的损失函数为其输出的分类损失，在训练阶段可以使用替代优化方式优化该损失函数。

步骤S105：将隐向量输入至输出层中，得到视频数据的评估结果。具体地，对于每组子视频采用上述方式计算可以得到其对应的隐藏向量序列，将获取的视频数据中每组子视频数据计算的隐藏向量序列连接起来可以作为视频数据的整体表示。最后采用两个全连接层和一个softmax层对该整体进行判断，输出获取的视频数据是否出现视频质量异常的结果。

本发明实施例提供的视频质量评估方法，采用空间金字塔采样策略来增强特征的表示能力。基于这些越来越精细的空间区域的深层架构不仅对变化具有鲁棒性，而且对局部显着性占主导地位的类别也更具辨别力；同时采用包含梯度流和RGB流的双流处理方案，由此可以捕捉到图像的大部分更高层次的含义，使其更适合视频质量异常的判断。此外，还采用了时空建模，考虑了视频帧间的时间连续性，从而提高了视频质量评估的准确性。

本发明实施例提供的视频质量评估方法，融合空间金字塔采用、三维卷积神经网络、自动编码器以及长短期记忆网络增强了视频的表示能力。其中，金字塔采样将视频数据划分为子视频，之后利用预训练的3D卷积网络进行时空特征提取；然后在时间维度上进行池化操作并拉伸得到特征向量，作为AE－RNN模块的输入；在AE－RNN模块中，每个时间段得到的隐藏层特征向量使用简化的RNN网络来考虑时间维度相关性；最后，将隐藏层的输出送入分类器，得到视频质量判断。

本发明实施例还提供一种视频质量评估装置，如图3所示，该装置包括：

数据获取模块，用于获取视频数据；详细内容参见上述方法实施例中步骤S101的相关描述。

处理模块，用于根据空间金字塔采样对所述视频数据进行处理，得到子视频数据；详细内容参见上述方法实施例中步骤S102的相关描述。

分析模块，用于对所述子视频数据进行RGB流分析和梯度流分析，得到RGB视频数据和梯度视频数据；详细内容参见上述方法实施例中步骤S103的相关描述。

时空建模模块，用于对所述RGB视频数据和梯度视频数据进行时空建模，得到所述视频数据的隐向量；详细内容参见上述方法实施例中步骤S104的相关描述。

评估模块，用于将所述隐向量输入至输出层中，得到所述视频数据的评估结果。详细内容参见上述方法实施例中步骤S105的相关描述。

本发明实施例提供的视频质量评估装置，采用空间金字塔采样策略来增强特征的表示能力。基于这些越来越精细的空间区域的深层架构不仅对变化具有鲁棒性，而且对局部显着性占主导地位的类别也更具辨别力；同时采用包含梯度流和RGB流的双流处理方案，由此可以捕捉到图像的大部分更高层次的含义，使其更适合视频质量异常的判断。此外，还采用了时空建模，考虑了视频帧间的时间连续性，从而提高了视频质量评估的准确性。

在一实施例中，如图4所示，时空建模模块包括：

特征提取模块，用于根据深度卷积神经网络对所述RGB视频数据和梯度视频数据进行时空特征提取，得到相应子视频数据的特征序列；

特征转换模块，用于根据自动编码器对所述特征序列进行特征转换；

隐向量计算模块，用于根据循环神经网络对特征转换后的特征序列进行计算，得到所述视频数据的隐向量。

本发明实施例提供的视频质量评估装置，融合空间金字塔采用、三维卷积神经网络、自动编码器以及长短期记忆网络增强了视频的表示能力。其中，金字塔采样将视频数据划分为子视频，之后利用预训练的3D卷积网络进行时空特征提取；然后在时间维度上进行池化操作并拉伸得到特征向量，作为AE－RNN模块的输入；在AE－RNN模块中，每个时间段得到的隐藏层特征向量使用简化的RNN网络来考虑时间维度相关性；最后，将隐藏层的输出送入分类器，得到视频质量判断。

本发明实施例提供的视频质量评估装置的功能描述详细参见上述实施例中视频质量评估方法描述。

本发明实施例还提供一种存储介质，如图5所示，其上存储有计算机程序601，该指令被处理器执行时实现上述实施例中视频质量评估方法的步骤。该存储介质上还存储有音视频流数据，特征帧数据、交互请求信令、加密数据以及预设数据大小等。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read－Only Memory，ROM)、随机存储记忆体(RandomAccess Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid－State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read－Only Memory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid－State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

本发明实施例还提供了一种电子设备，如图6所示，该电子设备可以包括处理器51和存储器52，其中处理器51和存储器52可以通过总线或者其他方式连接，图6中以通过总线连接为例。

处理器51可以为中央处理器(Central Processing Unit，CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器52作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的视频质量评估方法。

存储器52可以包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需要的应用程序；存储数据区可存储处理器51所创建的数据等。此外，存储器52可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器52可选包括相对于处理器51远程设置的存储器，这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器52中，当被所述处理器51执行时，执行如图1－2所示实施例中的视频质量评估方法。

上述电子设备具体细节可以对应参阅图1至图2所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种视频质量评估方法，其特征在于，包括：

获取视频数据；

根据空间金字塔采样对所述视频数据进行处理，得到子视频数据；

对所述子视频数据进行RGB流分析和梯度流分析，得到RGB视频数据和梯度视频数据；

对所述RGB视频数据和梯度视频数据进行时空建模，得到所述视频数据的隐向量；

将所述隐向量输入至输出层中，得到所述视频数据的评估结果。

2.根据权利要求1所述的视频质量评估方法，其特征在于，根据空间金字塔采样对所述视频数据进行处理，得到子视频数据，包括：

对所述视频数据的每帧图像进行空间金字塔分区，得到每帧图像的多个区块图像；

根据每帧图像之间的时间连续性，将多个区块分别进行连接，得到所述视频数据的子视频数据。

3.根据权利要求2所述的视频质量评估方法，其特征在于，所述空间金字塔分区采用2^L×2^L对每帧图像进行分区，L＝0，1，2。

4.根据权利要求1所述的视频质量评估方法，其特征在于，对所述RGB视频数据和梯度视频数据进行时空建模，得到所述视频数据的隐向量，包括：

根据深度卷积神经网络对所述RGB视频数据和梯度视频数据进行时空特征提取，得到相应子视频数据的特征序列；

根据自动编码器对所述特征序列进行特征转换；

根据循环神经网络对特征转换后的特征序列进行计算，得到所述视频数据的隐向量。

5.根据权利要求4所述的视频质量评估方法，其特征在于，

所述深度卷积神经网络为三维卷积神经网络，所述三维卷积神经网络包括三维卷积层和平均池化层；

所述循环神经网络为长短期记忆网络。

6.根据权利要求1所述的视频质量评估方法，其特征在于，

所述输出层包括两个全连接层和一个softmax层。

7.一种视频质量评估装置，其特征在于，包括：

数据获取模块，用于获取视频数据；

处理模块，用于根据空间金字塔采样对所述视频数据进行处理，得到子视频数据；

分析模块，用于对所述子视频数据进行RGB流分析和梯度流分析，得到RGB视频数据和梯度视频数据；

时空建模模块，用于对所述RGB视频数据和梯度视频数据进行时空建模，得到所述视频数据的隐向量；

评估模块，用于将所述隐向量输入至输出层中，得到所述视频数据的评估结果。

8.根据权利要求7所述的视频质量评估装置，其特征在于，所述时空建模模块包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如权利要求1－6任一项所述的视频质量评估方法。

10.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如权利要求1－6任一项所述的视频质量评估方法。