CN111479108A

CN111479108A - 基于神经网络的视频及音频联合质量评价方法和装置

Info

Publication number: CN111479108A
Application number: CN202010172399.7A
Authority: CN
Inventors: 闵雄阔; 翟广涛; 杨小康
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2020-07-31
Anticipated expiration: 2040-03-12
Also published as: CN111479108B

Abstract

本发明提供了一种基于神经网络的视频及音频联合质量评价方法，包括：从视频帧从截取适应神经网络输入的视频图像块，利用短时傅里叶变换将音频片段的一维音频信号转化为二维声谱图表征，利用神经网络分别从视频图像块及二维声谱图中提取感知质量特征，对提取的音视频深度神经网络感知质量特征进行一定后处理，得到两种模态基于深度神经网络的质量特征，融合两种模态的质量特征得到视频帧及音频片段的联合感知质量，在时域上池化视频帧及音频片段的联合感知质量得到总体音视频的联合感知质量。同时提供了一种联合质量评价装置。本发明提供的基于神经网络的视频及音频联合质量评价方法，可有效地评价音频和视频的总体体验质量。

Description

基于神经网络的视频及音频联合质量评价方法和装置

技术领域

本发明涉及多媒体质量评价技术领域，具体地，涉及一种基于神经网络的视频及音频联合质量评价方法和装置。

背景技术

随着社会的进步和科技的发展，人们传达信息的方式不断发生着改变。尤其是信息技术的快速发展使得以视频和音频为代表的多媒体逐渐成为人们传达信息和沟通交流不可或缺的一种方式。统计数字表明，在全世界各地范围内人们每年拍摄的照片就超过万亿张，而音频和视频等其它类型的多媒体信息也呈爆炸性增长。在此背景下，相关的多媒体信号处理技术也成为了研究热点。多媒体信息在最终呈现给用户之前可能会经历采集、压缩、传输、处理、呈现等各个阶段，而在整个多媒体通信链路中，多媒体信息可能会遭受各种失真的影响，从而造成质量退化，那么在整个通信链路的各个阶段量化感知质量的退化，对于保持、控制和提升多媒体的体验质量(Quality of Experience，QoE)具有非常重大的价值(《Z.Wang and Alan C.Bovik,“Modern image quality assessment,”SynthesisLectures on Image,Video,and Multimedia Processing,vol.2,no.1,pp.1-156,2006.》)。

在过去的几十年间，研究者们提出了大量的客观质量评价算法。经过检索发现：

Lin及Kuo在《W.Lin and C.-C.J.Kuo,“Perceptual visual quality metrics:Asurvey,”Journal of Visual Communication and Image Representation,vol.22,no.4,pp.297–312,2011.》中给出了视觉质量评价的综述；

Wang及Bovik在《Z.Wang and Alan C.Bovik,“Mean squared error:Love it orleave it？A new look at signal fidelity measures,”IEEE Signal ProcessingMagazine,vol.26,no.1,pp.98-117,2009.》、《Z.Wang and Alan C.Bovik,“Reduced-andno-reference image quality assessment,”IEEE Signal Processing Magazine,vol.28,no.6pp.29-40,2011.》中给出了全参考、半参考和无参考质量评价的综述；

Chikkerur等人在《S.Chikkerur,V.Sundaram,M.Reisslein,and L.J.Karam,“Objective video quality assessment methods:A classification,review,andperformancecomparison,”IEEE Transactions on Broadcasting,vol.57,no.2,pp.165-182,2011.》中给出视频质量评价的综述；

而Campbell等人在《D.Campbell,E.Jones,and M.Glavin,“Audio qualityassessment techniques—A review,and recent developments,”Signal Processing,vol.89,no.8,pp.1489-1500,2009.》中给出了音频质量评价的综述。

尽管研究者们已经提出了体验质量评价模型，但是包括上述研究在内的这些现有技术大多只聚焦于单一模态的信号，尤其是单一的视觉模态信号，即图像或视频，而忽略了同样非常重要的听觉模态信号的影响。与单一模态质量评价的广泛研究相比，音视频跨模态质量评价的受关注程度更小。You等人在《J.You,U.Reiter,M.M.Hannuksela,M.Gabbouj,and A.Perki,“Perceptual-based quality assessment for audio–visual services:Asurvey,”Signal Processing:Image Communication,vol.25,no.7,pp.482-501,2010.》中给出了音视频质量评价的综述。

为了研究视听觉信号之间的相互影响以及其它影响视听质量评价的因素，通常需要对多模态感知进行基础的研究，而这些研究通常通过一些视听觉实验来实现。在一项早期研究当中，Beerends和Caluwe在《J.G.Beerends,F.E.De Caluwe,“The influence ofvideo quality on perceived audio quality and vice versa,”Journal of the AudioEngineering Society,vol.47,no.5,pp.355–362,1999.》中，表明当视听觉刺激同时给出时，一种模态信号的质量评判会受到另一种模态信号的影响。还有研究者开展实验研究如何从视频质量及音频质量到处音视频的总体质量。多数研究表明视频质量总体上主导了音视频质量(可参考《ANSI-Accredited Committee T1 Contribution,“Combined A/V modelwith multiple audio and video impairments,”no.T1A1.5/94-124,1995.》)。总体来说，为了研究视听觉信号之间的相互影响以及其它影响视听质量评价的因素，通常需要对多模态感知进行基础的研究，而这些研究通常通过一些视听觉实验来实现，而当前领域内客观音视频联合质量评价模型极度匮乏。

目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

针对现有技术中存在的上述不足，本发明的目的是提供一种基于神经网络的视频及音频联合质量评价方法和装置，该方法利用短时傅里叶变换将一维音频信号转化为二维表征，然后利用神经网络从二维视频帧及一维音频的二维声谱图中提取深度音视频质量特征，最后融合两种模态基于深度神经网络的质量特征来预测视频及音频联合感知质量。

本发明是通过以下技术方案实现的。

根据本发明的第一方面，提供一种基于神经网络的视频及音频联合质量评价方法，包括：

S1：从视频帧截取适应神经网络输入的视频图像块；利用短时傅里叶变换将视频帧对应的音频片段的一维音频信号转化为二维声谱图表征；

S2：利用神经网络分别从S1中得到的视频图像块及二维声谱图中提取感知质量特征；

S3：对S2中提取的感知质量特征分别进行后处理，得到视频帧和音频两种模态的质量特征；

S4：融合S3中得到的两种模态的质量特征，得到视频帧及音频片段的联合感知质量；

S5：在时域上池化S4中得到的视频帧及音频片段的联合感知质量，得到总体音视频的联合感知质量。

优选地，所述S1中，分别从一一对应的参考视频帧和失真视频帧中截取适应神经网络输入的视频图像块，其中：

对于每个参考视频帧，需要从参考视频帧中随机截取若干个分辨率适应神经网络输入的参考视频图像块，所述参考视频图像块用于为计算失真视频的质量提供参考；

相对应的，对于每个失真视频帧，需要从失真视频帧中在与参考视频帧相同位置处截取与参考视频图像块数量相同、分别率相同的失真视频图像块，所述失真视频图像块用于计算失真视频的质量。

优选地，所述S1中，利用短时傅里叶变换分别将参考音频和失真音频的一维音频信号转化为二维声谱图表征，包括：

对参考音频进行短时傅里叶变换，生成分辨率匹配神经网络的输入图分辨率的参考二维声谱图，所述参考二维声谱图用于为计算失真音频的质量提供参考；

对失真音频进行短时傅里叶变换，生成分辨率匹配神经网络的输入图分辨率的失真二维声谱图，所述失真二维声谱图用于计算失真音频的质量。

优选地，所述短时傅立叶变换中，设定间隔为t毫秒、宽度为w毫秒，两个窗之间具有P％交叠的窗，对离视频帧最近的N×t毫秒的音频信号进行计算；对于频率轴，从梅尔尺度上均匀采样N个频率点，然后转换至赫兹尺度，其中采样频率点的频率范围为20Hz至20kHz。

优选地，所述S2中，利用神经网络分别从视频图像块及二维声谱图中提取感知质量特征，包括：

对于每一个视频图像块以及二维声谱图，均采用同一种神经网络提取感知质量特征；

所述神经网络，利用预训练好的深度神经网络，通过移除神经网络的最后m层来提取中间层的感知质量特征。

优选地，在深度神经网络的预训练过程中，将每一帧视频及其对应的音频片段当作一个实例，所述实例的真实音视频感知质量采用总体音视频的联合感知质量进行标定；同时，在预训练过程中对视频进行跳帧，并从若干视频帧及音频片段中只选择一帧来训练。

优选地，所述S3中，得到视频帧质量特征的方法为：

对于从视频图像块中提取的感知质量特征，计算所有感知质量特征的每一维的均值，作为该视频图像块所对应的视频帧的整体图像质量特征；

对参考视频帧的整体图像质量特征和失真视频帧的整体图像质量特征进行相减，将相减运算结果以及整体图像质量特征共同作为视频帧质量特征。

优选地，所述S3中，得到音频质量特征的方法为：

对于从二维声谱图中提取的感知质量特征，直接作为该二维声谱图所对应的音频的整体音频质量特征；

对参考音频的整体音频质量特征和失真音频的整体音频质量特征进行相减，将相减运算结果以及整体音频质量特征共同作为音频质量特征。

优选地，所述S4中，得到视频帧及音频片段的联合感知质量的方法采用如下任意一种融合方法：

-利用神经网络融合两种模态的质量特征，得到视频帧和音频片段的联合感知质量的描述；具体地，设计神经网络，以视频特征和音频特征为输入，直接预测视频帧和音频片段的联合感知质量；

-利用主成分分析和支持向量机来得到视频帧和音频片段的联合感知质量的描述，具体地，首先利用主成分分析方法对两种模态的质量特征进行降维，然后利用支持向量机融合降维后的质量特征，得到预测的视频帧和音频片段的联合感知质量。

优选地，所述S5中，在时域上池化视频帧及音频片段的联合感知质量得到总体音视频的联合感知质量的方法，具体地，计算一个视频及其音频的所有视频帧及音频片段的联合感知质量，然后求所有视频帧及音频片段的联合感知质量的平均值，即可得到总体音视频的联合感知质量。

根据本发明的第二方面，提供一种基于神经网络的视频及音频联合质量评价装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行上述的基于神经网络的视频及音频联合质量评价方法。

与现有技术相比，本发明具有如下有益效果：

本发明提供的基于神经网络的视频及音频联合质量评价方法和装置，通过从视频帧从截取适应神经网络输入的视频图像块，利用短时傅里叶变换将一维音频信号转化为二维声谱图表征，利用神经网络分别从视频图像块及二维声谱图中提取感知质量特征，对提取的音视频深度神经网络感知质量特征进行一定后处理，融合两种模态的感知质量特征来预测视频帧及音频片段的联合感知质量，在时域上池化视频帧及音频片段的联合感知质量得到整体音视频的联合感知质量等步骤，可有效地评价音视频总体体验质量。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例所提供的基于神经网络的视频及音频联合质量评价方法总体流程框图；

图2为本发明一实施例所梅尔尺度上均匀采样的224个频率点及其向赫兹尺度的转换示意图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

如图1所示，为本发明实施例提供了一种基于神经网络的视频及音频联合质量评价方法的总体流程框图，该方法包括如下步骤：

第一步、包括如下两部分：

(1)从视频帧中截取适应神经网络输入的视频图像块

具体地，对于每个提供的参考视频的某一参考视频帧，需要从参考视频帧图像中随机截取若干个分辨率适应神经网络输入的参考视频图像块，用于给视频的原始质量提供参考；而图像块是为了适应神经网络的输入；

相对应的，对于每个提供的失真视频的对应失真视频帧，需要从失真视频帧图像中的相同位置处截取与参考视频图像块数量相同、分辨率相同的失真视频图像块，用于估计失真视频的质量；其中失真视频帧与参考视频帧一一对应；

在本实施例中，视频帧图像块的分辨率大小为224×224，而从每一个视频帧中截取的图像块数量为25。当然，在其他实施例中，也可以采用其他的分辨率大小和其他数量的图像块。

(2)利用短时傅里叶变换将一维音频信号转化为二维声谱图表征

具体地，计算参考及失真音频的短时傅里叶变换，将相关参数设定为能够使得生成的二维声谱图分辨率匹配神经网络的输入图分辨率；其中，参考和失真音频必须由测试者提供。

在本实施例中，最后二维声谱图的分辨率同样为224×224，为了生成该分辨率的二维声谱图，相关参数具体以5毫秒为间隔、20毫秒为宽度、两两之间有75％交叠的窗，对离视频帧最近的224×5＝1120毫秒计算短时傅里叶变换。在计算短时傅里叶变换时，对于频率轴，可以从梅尔尺度上均匀采样224个频率点，然后转换至赫兹尺度，而采样频率点的频率范围为20Hz至20kHz，即人耳能听到的频率范围。赫兹尺度至梅尔尺度的转换函数为

其中f及m分别为赫兹尺度和梅尔尺度上的频率。梅尔尺度上均匀采样的224个频率点及其向赫兹尺度的转换示意图如图2所示。当然，在其他实施例中，也可以采用其他的分辨率等参数。

第二步、利用神经网络分别从视频图像块及二维声谱图中提取感知质量特征

具体地，对于每一个参考或失真视频图像块以及每一个参考或失真声谱图，都利用独立的神经网络来提取感知质量特征。神经网络可以利用在ImageNet上预训练好的深度神经网络，包括AlexNet、VGG、GoogLeNet、ResNet等；对于上述的预训练好的深度神经网络，可以通过移除深度神经网络的若干层来提取若干维质量特征，而非原始神经网络最后输出的物体类别。

在本实施例中，选择的神经网络为ResNet-50，该网络已经在ImageNet上预训练好，其输入图的分辨率为224×224。该网络的最后一层全连接层被去除，从而可以输出一个2048维的特征向量。当然，在其他实施例中，也可以采用其他的分辨率等参数。

第三步、对提取的感知质量特征进行一定后处理，得到视频帧和音频两种模态的质量特征

具体地，对于从单一参考或失真视频帧截取的所有视频图像块中提取的感知质量特征，可以求所有视频图像块的感知质量特征每一维的均值来作为该参考或失真视频帧的整体图像质量特征；对于从单一参考或失真声谱图中提取的感知质量特征，可以直接用作该参考或失真音频的整体音频质量特征；除了参考或失真视频帧的整体图像质量特征，还可以对参考或失真视频帧的整体图像质量特征之间进行差分运算，并与整体图像质量特征共同作为视频帧质量特征；除了参考或失真音频的整体音频质量特征，还可以对参考或失真音频的整体音频质量特征之间进行差分运算，并与整体音频质量特征共同作为音频质量特征。总地来说，视频帧质量特征和音频质量特征共包含参考及失真视频特征及其差分、参考及失真音频特征及其差分共六组质量特征。

在本实施例中，最终提取出六组维度为2048的特征向量。当然，在其他实施例中，也可以采用其他维度的特征向量，并不局限于2048的特征向量。

第四步、融合两种模态的感知质量特征来预测视频帧及音频片段的联合感知质量

具体地，可以利用神经网络来融合上述的六组质量特征，得到视频帧和音频片段的联合感知质量的描述。此外，在部分实施例中，还可以先利用主成分分析对六组质量特征进行降维，然后再利用支持向量机融合降维后的质量特征，得到视频帧和音频片段的联合感知质量的描述。

在本实施例中，首先利用主成分分析将224×6＝12288个特征降维至25个特征，然后再利用支持向量机从25个特征中融合出最终的音视频总体体验质量。

第五步、在时域上池化视频帧及音频片段的联合感知质量得到总体音视频的联合感知质量

具体地，因为本发明实施例所提供的方法是一个用于预测短时质量的方法，即该方法适用于预测视频帧及其邻近的短时音频片段的总体质量预测，所以需要在时域上池化视频帧及音频片段的联合感知质量得到总体音视频的联合感知质量。在本实施例中，使用平均池化的方式从视频帧及音频片段的联合感知质量得到整体音视频的感知质量。具体地，计算一个视频及其音频的所有视频帧及音频片段的联合感知质量，然后求所有视频帧及音频片段的联合感知质量的平均值，即可得到总体音视频的联合感知质量。

因为本发明实施例所提供的方法是一个基于短时视频帧及音频片段的方法，用于短时质量预测，所以在训练及测试神经网络的时候，可以将每一帧当作一个实例，而该实例的真实音视频感知质量可以用整个音视频的感知质量来进行标定，此外，为了降低计算量，还可以在训练及测试的时候进行跳帧，及从若干帧视频及音频片段中只选择一帧来进行训练及测试。在本实施例中，每10帧视频帧及音频片段才计算一次感知质量，最后融合抽样的视频帧及音频片段的感知质量得到整体音视频的感知质量。

在本发明另一实施例中，还提供一种基于神经网络的视频及音频联合质量评价装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述任一项实施例的基于神经网络的视频及音频联合质量评价方法。

实施效果：

为了对本发明上述实施例中所提供的基于神经网络的视频及音频联合质量评价方法的有效性进行验证，可以在LIVE-SJTU Audio and Video Quality Assessment(A/V-QA)Database数据库上对相关算法进行测试。LIVE-SJTU A/V-QA数据库是一个音视频质量评价数据库，包含从14段高质量参考音视频中利用24种音视频失真类型/程度生成的336段失真音视频。其中24种失真条件包含两种视频失真类型(压缩及压缩加缩放，都包含四级失真程度)及一种音频失真类型(压缩，包含三级失真程度)的任意组合。实验利用视频质量专家组(VQEG)在Video Quality Experts Group(VQEG)Phase I Full Reference-TV test中提出的中提出的以下两种评价标准来衡量音视频质量评价方法的性能好坏：Pearsonlinear correlation coefficients(PLCC)，Spearman rank order correlationcoefficients(SRCC)。

性能测试结果如表1所示，除了原始模型，实验还测试了当模型的几个设定发生变化时模型的性能，具体调节设定包括：利用主成分分析时最终使用的特征的维数(测试了5、25、125三种设定，其中25为模型的最后设定)，使用的特征的具体构成(测试了两组差分特征、四组参考及失真音视频特征、两组差分特征加四组参考及失真音视频特征三种设定，其中两组差分特征加四组参考及失真音视频特征为模型的最后设定)。从该表中可以看出，最终的模型可以有效地评价音视频的总体体验质量，此外合适和特征维数有助于更高效地预测总体质量，而差分特征加参考及失真音视频特征的组合更加有效。

表1

本发明上述实施例提供的一种基于神经网络的视频及音频联合质量评价方法，通过从视频帧中截取适应神经网络输入的视频图像块，利用短时傅里叶变换将一维音频信号转化为二维声谱图表征，利用神经网络分别从视频图像块及二维声谱图中提取感知质量特征，对提取的基于深度神经网络的感知质量特征进行一定后处理，融合两种模态的感知质量特征来预测视频帧及音频片段的联合感知质量，在时域上池化视频帧及音频片段的联合感知质量得到整体音视频的联合感知质量等步骤，可有效地评价音视频总体体验质量。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于神经网络的视频及音频联合质量评价方法，其特征在于，包括：

S1：从视频帧截取视频图像块，以及，利用短时傅里叶变换将视频帧对应的音频片段的一维音频信号转化为二维声谱图表征；

2.根据权利要求1所述的一种基于神经网络的视频及音频联合质量评价方法，其特征在于，所述S1中，分别从一一对应的参考视频帧和失真视频帧中截取适应神经网络输入的视频图像块，其中：

3.根据权利要求1所述的一种基于神经网络的视频及音频联合质量评价方法，其特征在于，所述S1中，利用短时傅里叶变换分别将参考音频和失真音频的一维音频信号转化为二维声谱图表征，包括：

4.根据权利要求3所述的一种基于神经网络的视频及音频联合质量评价方法，其特征在于，所述短时傅立叶变换中，设定间隔为t毫秒、宽度为w毫秒，两个窗之间具有P％交叠的窗，对离视频帧最近的N×t毫秒的音频信号进行计算；对于频率轴，从梅尔尺度上均匀采样N个频率点，然后转换至赫兹尺度，其中采样频率点的频率范围为20Hz至20kHz。

5.根据权利要求1所述的一种基于神经网络的视频及音频联合质量评价方法，其特征在于，所述S2中，利用神经网络分别从视频图像块及二维声谱图中提取感知质量特征，包括：

6.根据权利要求5所述的一种基于神经网络的视频及音频联合质量评价方法，其特征在于，在深度神经网络的预训练过程中，将每一帧视频及其对应的音频片段当作一个实例，所述实例的真实音视频感知质量采用总体音视频的联合感知质量进行标定；同时，在预训练过程中对视频进行跳帧，并从若干视频帧及音频片段中只选择一帧来训练。

7.根据权利要求1所述的一种基于神经网络的视频及音频联合质量评价方法，其特征在于，所述S3中，得到视频帧质量特征的方法为：

8.根据权利要求1所述的一种基于神经网络的视频及音频联合质量评价方法，其特征在于，所述S3中，得到音频质量特征的方法为：

9.根据权利要求1-8任一项所述的一种基于神经网络的视频及音频联合质量评价方法，其特征在于，所述S5中，在时域上池化视频帧及音频片段的联合感知质量得到总体音视频的联合感知质量的方法为，计算一个视频及其音频的所有视频帧及音频片段的联合感知质量，然后求所有视频帧及音频片段的联合感知质量的平均值，即可得到总体音视频的联合感知质量。

10.一种基于神经网络的视频及音频联合质量评价装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-9任一所述的方法。