CN113489971B

CN113489971B - 一种全参考音视频客观质量评价方法、系统及终端

Info

Publication number: CN113489971B
Application number: CN202110814232.0A
Authority: CN
Inventors: 闵雄阔; 曹于勤; 孙伟; 段慧煜; 吴思婧; 翟广涛
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2022-08-23
Anticipated expiration: 2041-07-19
Also published as: CN113489971A

Abstract

本发明提供一种全参考音视频客观质量评价方法、系统及终端，所述方法包括：分别提取参考视频帧和失真视频帧的短时特征，获得视频信号的短时特征和获得音频信号的短时特征；提取视频信号和音频信号的长时特征；将视频信号和音频信号的长时特征进行融合，得到音视频客观质量评价分数；其中，在短时特征提取时，首先将视频信号按时序依次将单帧图像分割为图像小块、音频信号通过短时傅里叶变换将短音频段转换为二维语谱图，之后利用卷积神经网络从图像小块和二维语谱图提取深层语义特征。本发明可有效地评价音视频的总体感知体验质量。

Description

一种全参考音视频客观质量评价方法、系统及终端

技术领域

本发明涉及多模态媒体质量评价技术领域，具体地，涉及一种基于短时和长时特征融合的全参考音视频客观质量评价方法、系统、终端。

背景技术

随着互联网和移动智能终端的发展，流媒体的流量迎来了飞速的增长，其中视频流量在全球数据流量占比与日增高，越来越多的消费者愿意选择通过观看视频来获取信息。在流媒体系统中，大多数视频信号都伴随着音频信号。同时视觉和听觉是人们从周围世界收集信息的重要途径，绝大部分的外界信息均通过视觉和听觉进入大脑之中。因此，当消费者在享受音视频时，音频信号和视频信号的质量将直接影响着消费者的感知与体验。

目前流媒体传输系统大致包括音频或视频的采集、压缩、传输和显示等阶段，每个阶段都可能会造成音频或视频信号的失真，从而降低最终用户的体验感知。对于流媒体消费者来说，他们总是希望在更高分辨率和保真度的音视频系统中进行观看和收听，因此，为了保障流媒体消费者的用户体验能维持在一定水平之上，有必要开发设计一种有效的音视频质量评价系统，自动检测音视频质量，保障最终用户的体验感知。

根据质量评价主体的不同，质量评价方法又分为主观质量评价和客观质量评价两大类。主观质量评价虽然准确性高，但其耗时耗力，并且成本较高，无法用于大规模的视听信号评估和实时处理系统中。因此，在过去的几十年间，研究者们提出了大量的客观质量评价算法，但大部分方法聚焦于模态信号，即图像、视频及音频。较少研究者研究多模态客观质量评价，如音视频客观质量评价。You等人在《J.You,U.Reiter,M.M.Hannuksela,M.Gabbouj,and A.Perki,“Perceptual-based quality assessment for audio–visualservices:A survey,”Signal Processing:Image Communication,vol.25,no.7,pp.482-501,2010.》中给出了音视频质量评价的综述。

由于关于人类感知理解的研究目前较少，针对听觉和视觉的感知过程尚未有明确解释，研究者无法确定感知过程中视觉和听觉信息的融合是如何进行的，部分研究提出听觉和视觉通道可能在人类感知形成的后期阶段被整合。因此，目前大多数研究者采用后期融合理论，即先分别处理听觉和视觉通道后，产生各通道的质量值，最后在后期整合，得到最终单一的感知质量。Hands在《D.S.Hands,“A basic multimedia quality model,”IEEETransactions on multimedia,vol.6,no.6,pp.806–816,2004》中通过简单相乘作为后期融合模型；Martinez和Farias在《H.B.Martinez,M.C.Farias,“Full-reference audio-visual video quality metric,”Journal of Electronic Imaging,vol.23,no.6,pp.061108,2014》中提出通过简单相加作为后期融合模型；Min等人在《X.Min,G.Zhai,J.Zhou,M.Q.Farias,and A.C.Bovik,“Study of sub-jective and objective qualityassessment of audio-visualsignals,”IEEE Transactions on Image Processing,vol.29,pp.6054–6068,2020》中利用支持向量机作为后期融合模型。

可以看到目前音视频质量评价研究成果中，大部分研究者采用线性组合进行后期融合，少部分研究者引进浅层机器学习，例如支持向量机，较少研究者将深度机器学习应用到音视频质量评价方法中。由于音视频作为长时间有序序列，其相邻帧之间具有必然的关联性和联系性。有序序列中的长期依赖性，通过人类的记忆机制，影响着人类最终主观感知质量。目前大部分音视频客观质量评价方法中所用的音频和视频质量指标，均是通过评价依次单独单帧的质量分数后求均值所得，因此只是提取了音视频中单个帧所对应的短时特征，忽略了音视频有序序列中的长时特征对音视频整体质量的影响。后期融合中简单的线性组合和浅层机器学习也无法有效提取音视频有序序列的长时特征。

发明内容

为了弥补现有技术中上述的不足之处，本发明的目的是提供一种全参考音视频客观质量评价方法、系统及终端。

本发明第一目的，提供一种全参考音视频客观质量评价方法，包括：

S1：从相同时刻的参考视频帧和失真视频帧中，随机截取多个同位置、同大小的图像小块，同时分别从参考音频和失真音频中截取此时刻前后持续一定时间的短音频段，作为参考短音频段和失真短音频段，之后两个短音频段分别通过短时傅里叶变换，从一维时域波形信号转化为二维语谱图；

S2：将S1中的二维卷积神经网络预训练后，分别从S1中得到的图像小块及二维语谱图中提取短时特征，即最深层语义特征；经处理获得参考音视频的视频信号的短时特征和音频信号的短时特征，以及失真音视频的视频信号的短时特征和音频信号的短时特征；

S3：将S2得到的参考音视频和失真音视频的视频信号的短时特征相减取绝对值，获得视频信号的短时特征；同理，将参考音视频和失真音视频的音频信号的短时特征相减取绝对值，获得音频信号的短时特征；

S4：将S3中获得的视频信号的短时特征和音频信号的短时特征，按时序分别输入门控循环神经网络，学习相邻帧之间的关联性，得到视频信号和音频信号的长时特征；

S5：将S4中得到的将视频信号和音频信号的长时特征进行融合，得到音视频客观质量评价分数。

可选地，所述S1中，利用短时傅里叶变换分别将参考短音频段和失真短音频段的一维时域波形转化为二维语谱图，分别生成参考短音频段和失真短音频段对应的二维语谱图，其分辨率与预训练后的神经网络的输入分辨率大小相同，参考音频段的二维语谱图为失真音频段质量评价提供参考。

可选地，所述S2中，利用预训练后的神经网络参考音视频的视频图像小块及二维语谱图中提取最深层语义特征，同理，从失真音视频的视频图像小块及二维语谱图中提取最深层语义特征，包括：

对于每一个视频图像小块以及二维语谱图，均采用同一种神经网络提取短时特征；

所述神经网络，利用预训练后的图像卷积神经网络，通过移除神经网络的最后全连接层和池化层，来提取最深层语义特征；

对单帧图像对应的所有图像小块的短时特征计算平均值，作为该帧图像的短时特征。

可选地，在短时特征提取过程中，对单帧图像进行跳帧操作，即按照时序等时间间隔，选取若干视频帧及并发短音频段，提取短时特征。

可选地，在利用预训练后的神经网络提取最深层语义特征后，通过全局平均池化操作和全局标准差池化操作对最深层语义特征进行信息压缩，以获取特征变化信息。

可选地，所述S3中，将相同时刻的参考视频帧和失真视频帧的短时特征，进行相减后取绝对值运算，将运算结果作为单帧图像的短时特征，从而将单帧图像的短时特征，按时序排列，可获得视频信号的短时特征；

同时，对应的参考短音频段和失真短音频段的短时特征，进行相减后取绝对值运算，将运算结果作为短音频段的短时特征，将短音频段的短时特征，按时序排列，可获得音频信号的短时特征。

可选地，所述S4中，得到视频信号和音频信号的短时特征后，经过全连接层降维后，分别按时序输入门控循环神经网络，得到视频信号和音频信号的长时特征。

可选地，所述S5中，将视频信号和音频信号的长时特征进行融合，包括：

将视频信号和音频信号的长时特征，输入由三层全连接层组成神经网络，融合视频和音频的长时特征，输出音视频的客观质量评价分数。

本发明第二目的，提供一种全参考音视频客观质量评价系统，包括：

短时特征提取模块：从相同时刻的参考视频帧和失真视频帧中，随机截取多个同位置、同大小的图像小块，此时刻并发的参考短音频段和失真短音频段分别通过短时傅里叶变换，从一维时域波形信号转化为二维语谱图；利用预训练后的二维卷积神经网络分别从所述图像小块及二维语谱图中提取短时特征，即最深层语义特征；经过后处理获得参考音视频的视频信号的短时特征和音频信号的短时特征，以及失真音视频的视频信号的短时特征和音频信号的短时特征；将得到的参考音视频和失真音视频的视频信号的短时特征相减取绝对值，获得视频信号的短时特征；同理，将参考音视频和失真音视频的音频信号的短时特征相减取绝对值，获得音频信号的短时特征；

长时特征提取模块：将获得的视频信号的短时特征和音频信号的短时特征，按时序分别输入门控循环神经网络，学习相邻帧之间的关联性，得到视频信号和音频信号的长时特征；

特征融合模块：将得到的将视频信号和音频信号的长时特征进行融合，得到音视频客观质量评价分数。

本发明第三目的，提供一种全参考音视频客观质量评价终端，包括存储器、处理器及存储在存储器上并能在处理器上运行的计算机程序，所述处理器执行所述程序时用于执行所述的全参考音视频客观质量评价方法。

与现有技术相比，本发明实施例具有如下至少一种有益效果：

本发明提供的一种基于短时和长时特征融合的全参考音视频客观质量评价方法，首先利用卷积神经网络分别在参考音视频和失真音视频中，提取视频信号短时特征以及音频信号的短时特征，将二者的视频信号的短时特征相减取绝对值，获得最终视频信号短时特征，同理获得最终音频信号的短时特征；之后将视频信号和音频信号的短时特征分别输入门控循环神经网络学习相邻帧之间的关联性，提取长时特征，最后利用全连接层将音频信号和视觉信号的长时特征进行融合，得到最终的客观质量评价分数。此方法在全参考情况下均可有效地评价音视频总体体验质量，并优于目前已提出前沿的全参考音视频客观质量评价方法，不仅将深度学习方法融入全参考音视频客观质量评价领域，并且考虑了相邻帧之间关联性对音视频整体质量的影响。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中的全参考音视频客观质量评价方法流程框图；

图2为本发明一实施例中的视频短时特征提取的流程框图；

图3为本发明一实施例中的音频短时特征提取的流程框图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

本发明实施例提供了一种基于短时和长时特征融合的全参考音视频客观质量评价方法，参照图1，包括以下步骤：

S1：从相同时刻的参考视频帧和失真视频帧中，随机截取多个同位置、同大小的图像小块，其分辨率大小适应二维卷积神经网络输入；此时刻并发的参考短音频段和失真短音频段分别通过短时傅里叶变换，从一维时域波形信号转化为二维语谱图；

S2：将S1中二维卷积神经网络预训练后，分别从S1中随机截取得到的单帧图像小块及二维语谱图中提取短时特征，即最深层语义特征；经过处理获得参考音视频的视频信号的短时特征和音频信号的短时特征，以及失真音视频的视频信号的短时特征和音频信号的短时特征；参照图2所示；其中处理操作可以为：对单帧图像对应的所有图像小块的短时特征计算平均值，作为该帧图像的短时特征。

S3：将S2得到的参考音视频和失真音视频的视频信号的短时特征相减取绝对值，获得视频信号的短时特征；同理，将参考音视频和失真音视频的音频信号的短时特征相减取绝对值，获得音频信号的短时特征；参照图3所示；

S5：将S4中得到的视频信号和音频信号的长时特征进行融合，得到音视频客观质量评价分数。

对应于上述实施例的基于短时和长时特征融合的全参考音视频客观质量评价方法的相同构思，本发明另一实施例中还提供一种基于短时和长时特征融合的全参考音视频客观质量评价系统，如图1所示，该系统包括三大模块：

短时特征提取模块：从相同时刻的参考视频帧和失真视频帧中，随机截取多个同位置、同大小的图像小块，此时刻并发的参考短音频段和失真短音频段分别通过短时傅里叶变换，从一维时域波形信号转化为二维语谱图；利用预训练后的二维卷积神经网络分别从所述图像小块及二维语谱图中提取短时特征，即最深层语义特征；经过处理获得参考音视频的视频信号的短时特征和音频信号的短时特征，以及失真音视频的视频信号的短时特征和音频信号的短时特征；将得到的参考音视频和失真音视频的视频信号的短时特征相减取绝对值，获得视频信号的短时特征；同理，将参考音视频和失真音视频的音频信号的短时特征相减取绝对值，获得音频信号的短时特征；

上述短时特征提取模块对应于基于短时和长时特征融合的全参考音视频客观质量评价方法实施例中的S1-S3，具体实现技术相同。

基于相同的技术构思，在另一实施例中，本发明还提供一种全参考音视频客观质量评价终端，包括存储器、处理器及存储在存储器上并能在处理器上运行的计算机程序，所述处理器执行所述程序时用于执行所述的全参考音视频客观质量评价方法。

本发明上述实施例提供的基于短时和长时特征融合的全参考音视频客观质量评价方法、系统及终端，可有效地评价音视频的总体感知体验质量。

具体的，以下对上述实施例中具体实现细节进行说明：

如图1所示，在一优选实施例中，短时特征提取(对应于图1中的短时特征提取模块)，包括如下两部分，即单帧图像的短时特征提取、短音频段短时特征提取：

(1)单帧图像的短时特征提取

首先从参考视频帧中随机截取若干个分辨率适应神经网络输入的图像小块，将图像小块输入经过预训练后的卷积神经网络中，提取其最深层的语义特征，然后通过全局平均池化操作和全局标准差池化操作压缩特征信息后，将此参考视频帧对应的图像小块的短时特征求平均后得到当前参考视频帧的短时特征。相应的，在失真视频帧中按相同位置截取同样大小的图像小块，按照相同的步骤提取特征、压缩特征和取均值后，得到当前失真视频帧的短时特征。最后将参考视频帧与相同时刻的失真视频帧的短时特征相减取绝对值，作为视频帧的短时特征。

在本实施例中，采用了经过ImagNet预训练的ResNet50网络，该网络的最后一层全连接层和池化层被去除。视频帧截取的图像小块的分辨率大小为224×224，从每一个视频帧中截取的图像小块数量为25。参照图2所示。

(1)短音频段短时特征提取

采用基于音频语谱图短时特征提取算法，即利用短时傅里叶变换将一维音频信号转化为二维语谱图。将视频帧对应的参考短音频段和失真短音频段，分别通过短时傅里叶变换转换为二维语谱图后，输入经过ImagNet预训练后的ResNet网络中，提取其最深层的语义特征，通过全局平均池化操作和全局标准差池化操作压缩特征信息后，分别得到参考短音频段和失真短音频段的短时特征，将二者作差取绝对值，得到视频帧对应的短音频段的短时特征。参照图3所示。

在上述短时傅里叶变换过程中，通过调节相关参数，将生成的二维语谱图分辨率匹配经ImagNet预训练后神经网络的输入分辨率。短时傅立叶变换中，采用的窗函数的长度为t毫秒，每次滑动步长为w毫秒，两个窗之间存在P％的重叠区域，对离视频帧最近的N×t毫秒的音频信号进行计算；对于频率轴，从梅尔尺度上均匀采样N个频率点，然后转换至赫兹尺度，其中采样频率点的频率范围为20Hz至20kHz。具体的，在本实施例中，最后输出的二维语谱图的分辨率同样为224×224，相关参数具体设定如下：

采用的窗函数为汉明窗(hamming)，窗的长度为20ms，每次滑动步长为5ms，因此存在

的重叠区域，由此选取离视频帧最近224×5＝1120ms短音频段。在计算短时傅里叶变换时，对于频率轴，从梅尔尺度上均匀采样224个频率点，然后转换至赫兹尺度，而采样频率点的频率范围为20Hz至20kHz，即人耳能听到的频率范围。赫兹尺度至梅尔尺度的转换函数为

其中f及m分别为赫兹尺度和梅尔尺度上的频率。

在另一较优实施例中，长时特征提取(对应于图1的长时特征提取模块)，具体可以按照以下操作：将提取到视频帧和短音频段的短时特征，经过全连接层降维后，按时序输入门控循环神经网络，学习相邻帧之间的关联性后，获得视频信号和音频信号长时特征。

在另一较优实施例中，视频信号和音频信号的长时特征进行融合(对应于图1的特征融合模块)，其中，将长时特征输入由三层全连接层组成的神经网络，进行多模态特征融合，计算得到最终质量预测得分。

此外，为了降低计算量，在其他优选实施例中，可以在训练及测试的时候进行跳帧处理，即等时间间隔从视频帧和短音频段中选择一帧及其对应的音频段进行训练和测试。比如，在上述实施例中，每2帧视频帧和对应的短音频段计算一次感知质量，最后融合抽样的视频帧及短音频段的特征得到最终质量预测得分。

实施效果：

为了对本发明上述实施例中所提供的基于短时和长时特征融合的全参考音视频客观质量评价方法的有效性进行验证，接下来在LIVE-SJTU Audio and Video QualityAssessment(A/V-QA)Database数据库上进行实验测试。LIVE-SJTU A/V-QA数据库由14个原始音视频和336个失真版本组成，分别对每个序列均由35位人类受试者进行了主观质量评定。其中视频信号有两种失真受损方式，分别是HEVC压缩和空间下采样后的压缩，两种视频失真方式都设定四种程度，由此视频共有八种失真程度。而音频信号通过高级音频编码(AAC)造成失真编码，共用三种程度的压缩失真。由此每个原始音视频共有24个失真版本(24＝8(视频信号失真程度个数)×3(音频信号失真程度个数))。根据视频质量专家组(VQEG)在Video Quality Experts Group(VQEG)Phase I Full Reference-TV test中提出的标准，实验中选择以下两种评价标准来衡量音视频客观质量评价方法的性能好坏：Pearson linear correlation coefficients(PLCC)和Spearman rank ordercorrelation coefficients(SRCC)。

实验过程中，利用分段平均评估方法(segmented mean assessment method,SMAM)将训练集进行扩展。SMAM会将训练集中的音视频序列分割为多个持续时间相同的短音视频序列，以扩大训练集的大小。训练集中每个分割后的短音视频序列，均作为单独的训练数据，其标签与原始音视频序列的主观质量评分相同。在测试过程中，首先对测试集中的音视频序列按照同样分割段数，分割为多个持续时间相同的短音视频，将其分别单独输入模型进行质量评分，然后将此音视频序列对应的所有短音视频序列质量得分，取平均值作为原始音视频序列的质量评分。

性能测试结果如表1所示，实验过程中通过改变SMAM方法的参数，进行对比实验，分别将SMAM方法中音视频切割后的段数设置为1、2、4和6。从该表中可以看出，本发明提出的方法在全参考情况下可以有效地评价音视频的总体体验质量，此外在SMAM中设定合适的切割后段数，可以提高整体方法性能。

表1

本发明提供的一种基于短时和长时特征融合的全参考音视频客观质量评价方法，在全参考情况下均可有效地评价音视频总体体验质量。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种全参考音视频客观质量评价方法，其特征在于，包括：

S1：从相同时刻的参考视频帧和失真视频帧中，随机截取多个同位置、同大小的图像小块；此时刻并发的参考短音频段和失真短音频段分别通过短时傅里叶变换，从一维时域波形信号转化为二维语谱图；

S2：利用预训练后的二维卷积神经网络分别从S1中得到的图像小块及二维语谱图中提取短时特征，即最深层语义特征，经过处理获得参考音视频的视频信号的短时特征和音频信号的短时特征，以及失真音视频的视频信号的短时特征和音频信号的短时特征；

S5：将S4中得到的视频信号和音频信号的长时特征进行融合，得到音视频客观质量评价分数；

所述S2中，利用预训练后的二维卷积神经网络从参考音视频的视频图像小块及二维语谱图中提取最深层语义特征，同理，从失真音视频的视频图像小块及二维语谱图中提取最深层语义特征，包括：

对于每一个视频图像小块以及二维语谱图，均采用同一种二维卷积神经网络提取短时特征；

所述二维卷积神经网络为图像卷积神经网络，通过移除所述图像卷积神经网络的最后全连接层和池化层，来提取最深层语义特征；

对单帧图像对应的所有图像小块的短时特征计算平均值，作为该帧图像的短时特征；

在短时特征提取过程中，对单帧图像进行跳帧操作，即按照时序等时间间隔，选取若干视频帧及并发短音频段，提取短时特征；

在利用预训练后的二维卷积神经网络提取最深层语义特征后，通过全局平均池化操作和全局标准差池化操作对最深层语义特征进行信息压缩，以获取特征变化信息；

所述S5中，将视频信号和音频信号的长时特征进行融合，包括：

2.根据权利要求1所述的全参考音视频客观质量评价方法，其特征在于，所述S1中，利用短时傅里叶变换分别将参考短音频段和失真短音频段的一维时域波形转化为二维语谱图，分别生成参考短音频段和失真短音频段对应的二维语谱图，其分辨率与预训练后的二维卷积神经网络的输入分辨率大小相同，参考音频段的二维语谱图为失真音频段质量评价提供参考。

3.根据权利要求1所述的全参考音视频客观质量评价方法，其特征在于，所述S3中，将相同时刻的参考视频帧和失真视频帧的短时特征，进行相减后取绝对值运算，将运算结果作为单帧图像的短时特征，从而将单帧图像的短时特征，按时序排列，可获得视频信号的短时特征；

4.根据权利要求1所述的全参考音视频客观质量评价方法，其特征在于，所述S4中，得到视频信号和音频信号的短时特征后，经过全连接层降维后，分别按时序输入门控循环神经网络，得到视频信号和音频信号的长时特征。

5.一种全参考音视频客观质量评价系统，用于实现权利要求1-4中任一项所述的一种全参考音视频客观质量评价方法，其特征在于，包括：

短时特征提取模块：从相同时刻的参考视频帧和失真视频帧中，随机截取多个同位置、同大小的图像小块，此时刻并发的参考短音频段和失真短音频段分别通过短时傅里叶变换，从一维时域波形信号转化为二维语谱图；利用预训练后的二维卷积神经网络分别从所述图像小块及二维语谱图中提取短时特征，即最深层语义特征；经处理获得参考音视频的视频信号的短时特征和音频信号的短时特征，以及失真音视频的视频信号的短时特征和音频信号的短时特征；将得到的参考音视频和失真音视频的视频信号的短时特征相减取绝对值，获得视频信号的短时特征；同理，将参考音视频和失真音视频的音频信号的短时特征相减取绝对值，获得音频信号的短时特征；

6.一种全参考音视频客观质量评价终端，包括存储器、处理器及存储在存储器上并能在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时用于执行权利要求1-4任一所述的方法。