CN113473117A

CN113473117A - 一种基于门控循环神经网络的无参考音视频质量评价方法

Info

Publication number: CN113473117A
Application number: CN202110814227.XA
Authority: CN
Inventors: 闵雄阔; 曹于勤; 孙伟; 朱煜程; 高艺璇; 翟广涛
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-10-01
Anticipated expiration: 2041-07-19
Also published as: CN113473117B

Abstract

本发明提供了一种基于门控循环神经网络的无参考音视频质量评价方法，首先通过短时特征提取模块中卷积神经网络提取视频信号和音频信号的短时特征，之后利用长时特征提取模块中门控循环神经网络从视频信号和音频信号的短时特征中学习相邻帧之间的关联性，提取长时特征，最后通过特征融合模块中全连接层将音频信号和视觉信号的长时特征进行融合，得到音视频客观质量评价分数。在短时特征提取时，首先将视频信号按时序依次将单帧图像分割为图像小块、音频信号通过短时傅里叶变换将短音频段转换为二维语谱图，之后利用卷积神经网络从图像小块和二维语谱图提取深层语义特征。本发明可有效地评价音视频的总体感知体验质量。

Description

一种基于门控循环神经网络的无参考音视频质量评价方法

技术领域

本发明涉及多模态媒体质量评价技术领域，具体地，涉及一种基于门控循环神经网络的无参考音视频质量评价方法。

背景技术

随着互联网和移动智能终端的发展，流媒体的流量迎来了飞速的增长，其中视频流量在全球数据流量占比与日增高，观看视频成为消费者生活中重要的娱乐方式和消息途径。在流媒体系统中，大多数视频信号都伴随着音频信号。同时视觉和听觉是人们从周围世界收集信息的重要途径，绝大部分的外界信息均通过视觉和听觉进入大脑之中。因此，当消费者在享受音视频时，音频信号和视频信号的质量将直接影响着消费者的感知与体验。

目前流媒体传输系统大致包括音频或视频的采集、压缩、传输和显示等阶段，每个阶段都可能会造成音频或视频信号的失真，从而降低最终用户的体验感知。对于流媒体消费者来说，他们总是希望在更高分辨率和保真度的音视频系统中进行观看和收听，因此，为了保障流媒体消费者的用户体验能维持在一定水平之上，有必要开发设计一种有效的音视频质量评价系统，快速检测音视频质量，当检测到音视频质量不达标时，及时启动音视频的优化与修复，保障最终用户的体验感知。

根据质量评价主体的不同，质量评价方法又分为主观质量评价和客观质量评价两大类(《Z.Akhtar and T.H.Falk,“Audio-visual multimedia quality assessment:Acomprehensive survey,”IEEE Access,vol.5,pp.21090–21117,2017》)。主观质量评价虽然准确性高，但其耗时耗力，并且成本较高，无法用于大规模的视听信号评估和实时处理系统中。因此，在过去的几十年间，研究者们提出了大量的客观质量评价算法，但大部分方法聚焦于模态信号，即图像、视频及音频。较少研究者研究多模态客观质量评价，如音视频客观质量评价。You等人在《J.You,U.Reiter,M.M.Hannuksela,M.Gabbouj,and A.Perki,“Perceptual-based quality assessment for audio–visual services:A survey,”Signal Processing:Image Communication,vol.25,no.7,pp.482-501,2010.》中给出了音视频质量评价的综述。

由于关于人类感知理解的研究目前较少，针对听觉和视觉的感知过程尚未有明确解释，研究者无法确定感知过程中视觉和听觉信息的融合是如何进行的，部分研究提出听觉和视觉通道可能在人类感知形成的后期阶段被整合。因此，目前大多数研究者采用后期融合理论，即先分别处理听觉和视觉通道后，产生各通道的质量值，最后在后期整合，得到最终单一的感知质量。上述大部分研究成果集中于全参考音视频质量评价，而无参考音视频质量评价缺乏深入研究，由于无需参考音视频的任何信息，因此更难设计，但更容易适用于实时检测系统中。

并且目前音视频质量评价研究成果中，大部分研究者采用线性组合进行后期融合，少部分研究者引进浅层机器学习，例如支持向量机，较少研究者将深度机器学习应用到音视频质量评价方法中。由于音视频作为长时间有序序列，其相邻帧之间具有必然的关联性和联系性。有序序列中的长期依赖性，通过人类的记忆机制，影响着人类最终主观感知质量。目前大部分音视频客观质量评价方法中所用的音频和视频质量指标，均是通过评价依次单独单帧的质量分数后求均值所得，因此只是提取了音视频中单个帧所对应的短时特征，忽略了音视频有序序列中的长时特征对音视频整体质量的影响。后期融合中简单的线性组合和浅层机器学习也无法有效提取音视频有序序列的长时特征。

发明内容

为了弥补现有技术中上述的不足之处，本发明的目的是提供一种基于门控循环神经网络的无参考音视频质量评价方法、系统及终端。

本发明的第一目的，提供一种基于门控循环神经网络的无参考音视频质量评价方法，包括：

S1：从视频的单帧图像中随机截取多个图像小块，单帧图像并发的短音频段通过短时傅里叶变换，从一维时域波形信号转化为二维语谱图；利用预训练后的二维卷积神经网络分别从单帧图像小块及二维语谱图中提取短时特征即最深层语义特征，通过后处理获得视频信号和音频信号的短时特征；

S2：将S1中获得的视频信号和音频信号的短时特征，按时序分别输入门控循环神经网络，学习相邻帧之间的关联性，得到视频信号和音频信号的长时特征；

S3：将S2中得到的视频信号和音频信号的长时特征进行融合，得到音视频客观质量评价分数。

优选地，所述S1中，按照时序，依次从失真音视频的单帧图像中随机截取若干个分辨率适应神经网络输入的失真图像小块。

优选地，所述S1中，将离单帧图像最近的一段音频，切割成为失真短音频段，通过短时傅里叶变换将其转换为二维语谱图，其分辨率与预训练后的神经网络的输入分辨率大小相同。

优选地，所述S2中，利用预训练后的神经网络分别从视频图像小块及二维语谱图中提取最深层语义特征，包括：

对于每一个视频图像小块以及二维语谱图，均采用同一种神经网络提取短时特征；

所述神经网络，利用预训练后的图像卷积神经网络，通过移除神经网络的最后全连接层和池化层，来提取最深层语义特征。

优选地，在短时特征提取过程中，对单帧图像进行跳帧操作，即按照时序等时间间隔，选取若干视频帧及并发短音频段，提取短时特征。

优选地，在短时特征提取过程中，首先利用预训练后的神经网络提取最深层语义特征后，通过全局平均池化操作和全局标准差池化操作对最深层语义特征进行信息压缩，以获取特征变化信息。

优选地，所述S2中，后处理操作为：

对于从图像小块中提取的短时特征，对单帧图像对应的所有图像小块的短时特征计算平均值，作为失真音视频中该帧图像的短时特征；

将单帧图像和短音频段的短时特征，按时序排列，获得视频信号和音频信号的短时特征。

优选地，所述S3中，得到视频信号和音频信号的短时特征后，经过全连接层降维后，分别按时序输入门控循环神经网络，得到视频信号和音频信号的长时特征。

优选地，所述S4中，将视频帧和并发短音频段的长时特征进行融合，包括：

将视频信号和音频信号的长时特征，输入由三层全连接层组成神经网络，融合视频信号和音频信号的长时特征，输出音视频的客观质量评价分数。

本发明的第二目的，提供一种基于门控循环神经网络的无参考音视频质量评价系统，包括：

短时特征提取模块：从视频的单帧图像中随机截取多个图像小块，单帧图像并发的短音频段通过短时傅里叶变换，从一维时域波形信号转化为二维语谱图；利用预训练后的二维卷积神经网络分别从单帧图像小块及二维语谱图中提取短时特征即最深层语义特征，通过后处理获得视频信号和音频信号的短时特征；

长时特征提取模块：将获得的视频信号和音频信号的短时特征，按时序分别输入门控循环神经网络，学习相邻帧之间的关联性，得到视频信号和音频信号的长时特征；

特征融合模块：将得到的视频信号和音频信号的长时特征进行融合，得到音视频客观质量评价分数。

本发明的第三目的，提供一种基于门控循环神经网络的无参考音视频质量评价终端，包括存储器、处理器及存储在存储器上并能在处理器上运行的计算机程序，所述处理器执行所述程序时用于执行所述的基于门控循环神经网络的无参考音视频质量评价方法。

与现有技术相比，本发明具有如下有益效果：

本发明提供的一种基于门控循环神经网络的无参考音视频质量评价方法、系统及终端，首先利用卷积神经网络提取视频信号和音频信号的短时特征，即卷积神经网络的最深层语义特征，之后将短时特征输入门控循环神经网络学习相邻帧之间的关联性，提取长时特征，最后利用全连接层将音频信号和视觉信号的长时特征进行融合，得到最终的客观质量评价分数。此方法在无参考情况下可有效地评价音视频总体体验质量，并优于目前已提出前沿的无参考音视频客观质量评价方法，不仅将深度学习方法融入无参考音视频客观质量评价领域，并且考虑了相邻帧之间关联性对音视频整体质量的影响。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例的基于门控循环神经网络的无参考音视频质量评价方法总体流程框图；

图2为本发明一实施例所提供的视频短时特征提取的流程框图；

图3为本发明一实施例所提供的音频短时特征提取的流程框图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

本发明实施例提供了一种基于门控循环神经网络的无参考音视频质量评价方法，参照图1所示，包括如下步骤：

本发明实施例采用短时特征和长时特征，可有效地评价音视频的总体感知体验质量。

基于上述相同构思，在本发明另一实施例中，还提供一种基于门控循环神经网络的无参考音视频质量评价系统，如图1所示，包括：

基于上述相同构思，在本发明另一实施例中，还提供一种基于门控循环神经网络的无参考音视频质量评价终端，包括存储器、处理器及存储在存储器上并能在处理器上运行的计算机程序，所述处理器执行所述程序时用于执行所述的基于门控循环神经网络的无参考音视频质量评价方法。

具体的，以下对上述实施例中具体实现细节进行说明：

如图1所示，本发明上述实施例的方法、系统，主要包括三大部分：

第一，短时特征提取，在具体实施例中，可以包括如下两部分：

-单帧图像的短时特征提取

首先从失真视频帧中随机截取若干个分辨率适应神经网络输入的图像小块，将图像小块输入预训练后的卷积神经网络中，提取其最深层的语义特征，通过全局平均池化操作和全局标准差池化操作压缩特征信息后，将此失真视频帧对应的图像小块的短时特征求平均后得到当前视频帧的短时特征。

在本实施例中，采用了经过ImagNet预训练的ResNet50网络，该网络的最后一层全连接层和池化层被去除。视频帧截取的图像小块的分辨率大小为224×224，从每一个视频帧中截取的图像小块数量为25。

-短音频段短时特征提取

截取离视频帧最近的一段音频，将此失真短音频段通过短时傅里叶变换转换为二维语谱图后，输入经过ImagNet预训练后的ResNet网络中，提取其最深层的语义特征，通过全局平均池化操作和全局标准差池化操作压缩特征信息后，得到失真短音频段的短时特征，作为失真视频帧对应的短音频段的短时特征。

在上述短时傅里叶变换过程中，通过调节相关参数，将生成的二维语谱图分辨率匹配经ImagNet预训练后神经网络的输入分辨率。具体的，短时傅立叶变换中，采用的窗函数的长度为t毫秒，每次滑动步长为w毫秒，两个窗之间存在P％的重叠区域，对离视频帧最近的N×t毫秒的音频信号进行计算；对于频率轴，从梅尔尺度上均匀采样N个频率点，然后转换至赫兹尺度，其中采样频率点的频率范围为20Hz至20kHz。在本实施例中，最后输出的二维语谱图的分辨率同样为224×224，相关参数具体设定如下：

采用的窗函数为汉明窗(hamming)，窗的长度为20ms，每次滑动步长为5ms，因此存在

的重叠区域，由此选取离视频帧最近224×5＝1120ms短音频段。在计算短时傅里叶变换时，对于频率轴，从梅尔尺度上均匀采样224个频率点，然后转换至赫兹尺度，而采样频率点的频率范围为20Hz至20kHz，即人耳能听到的频率范围。赫兹尺度至梅尔尺度的转换函数为

其中f及m分别为赫兹尺度和梅尔尺度上的频率。

第二，长时特征提取

将从短时特征特征模块中提取到单帧图像和短音频段的短时特征，按时序排列，获得视频信号和音频信号的短时特征。经过全连接层降维后，按时序输入门控循环神经网络，学习相邻帧之间的关联性后，获得视频信号和音频信号长时特征。

第三，特征融合

将长时特征输入由三层全连接层组成的神经网络，进行多模态特征融合，计算得到最终质量预测得分。

此外，为了降低计算量，在其他优选实施例中，可以在训练及测试的时候进行跳帧处理，即等时间间隔从视频帧和短音频段中选择一帧及其对应的音频段进行训练和测试。比如，在本实施例中，每2帧视频帧和对应的短音频段计算一次感知质量，最后融合抽样的视频帧及短音频段的特征得到最终质量预测得分。

实施效果：

为了对本发明上述实施例中所提供的基于门控循环神经网络的无参考音视频质量评价方法的有效性进行验证，接下来在LIVE-SJTU Audio and Video QualityAssessment(A/V-QA)Database数据库上进行实验测试。LIVE-SJTU A/V-QA数据库由14个原始音视频和336个失真版本组成，分别对每个序列均由35位人类受试者进行了主观质量评定。其中视频信号有两种失真受损方式，分别是HEVC压缩和空间下采样后的压缩，两种视频失真方式都设定四种程度，由此视频共有八种失真程度。而音频信号通过高级音频编码(AAC)造成失真编码，共用三种程度的压缩失真。由此每个原始音视频共有24个失真版本(24＝8(视频信号失真程度个数)×3(音频信号失真程度个数))。根据视频质量专家组(VQEG)在Video Quality Experts Group(VQEG)Phase I Full Reference-TV test中提出的标准，实验中选择以下两种评价标准来衡量音视频质量评价方法的性能好坏：Pearsonlinear correlation coefficients(PLCC)和Spearman rank order correlationcoefficients(SRCC)。

实验过程中，利用分段平均评估方法(segmented mean assessment method,SMAM)将训练集进行扩展。SMAM会将训练集中的音视频序列分割为多个持续时间相同的短音视频序列，以扩大训练集的大小。训练集中每个分割后的短音视频序列，均作为单独的训练数据，其标签与原始音视频序列的主观质量评分相同。在测试过程中，首先对测试集中的音视频序列按照同样分割段数，分割为多个持续时间相同的短音视频，将其分别单独输入模型进行质量评分，然后将此音视频序列对应的所有短音视频序列质量得分，取平均值作为原始音视频序列的质量评分。

表1

无参考情况下的性能测试结果如表1所示，实验过程中通过改变SMAM方法的参数，进行对比实验，分别将SMAM方法中音视频切割后的段数设置为1、2、4和6。从该表中可以看出，本发明提出的方法在无参考情况下可以有效地评价音视频的总体体验质量，此外在SMAM中设定合适的切割后段数，可以提高整体方法性能。

本发明提供的一种基于门控循环神经网络的无参考音视频质量评价方法，在无参考情况下可有效地评价音视频总体体验质量。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于门控循环神经网络的无参考音视频质量评价方法，其特征在于，包括：

2.根据权利要求1所述的一种基于门控循环神经网络的无参考音视频质量评价方法，其特征在于，所述S1中：

按照时序，依次从失真音视频的单帧图像中随机截取若干个分辨率适应神经网络输入的失真图像小块；

将离单帧图像最近的一段音频，切割成为失真短音频段，通过短时傅里叶变换将其转换为二维语谱图，其分辨率与预训练后的二维卷积神经网络的输入分辨率大小相同。

3.根据权利要求1所述的一种基于门控循环神经网络的无参考音视频质量评价方法，其特征在于，所述S1中，利用预训练后的神经网络分别从视频图像小块及二维语谱图中提取最深层语义特征，包括：

4.根据权利要求3所述的一种基于门控循环神经网络的无参考音视频质量评价方法，其特征在于，在短时特征提取过程中，对单帧图像进行跳帧操作，即按照时序等时间间隔，选取若干视频帧及并发短音频段，提取短时特征。

5.根据权利要求3所述的一种基于门控循环神经网络的无参考音视频质量评价方法，其特征在于，在利用预训练后的神经网络提取最深层语义特征后，通过全局平均池化操作和全局标准差池化操作对最深层语义特征进行信息压缩，以获取特征变化信息。

6.根据权利要求1所述的一种基于门控循环神经网络的无参考音视频质量评价方法，其特征在于，所述S1中，后处理操作为：

7.根据权利要求1所述的一种基于门控循环神经网络的无参考音视频质量评价方法，其特征在于，所述S2中，得到视频信号和音频信号的短时特征后，经过全连接层降维后，分别按时序输入门控循环神经网络，得到视频信号和音频信号的长时特征。

8.根据权利要求1所述的一种基于门控循环神经网络的无参考音视频质量评价方法，其特征在于，所述S3中，将S2中得到的视频信号和音频信号的长时特征进行融合，包括：

9.一种基于门控循环神经网络的无参考音视频质量评价系统，其特征在于，包括：

10.一种基于门控循环神经网络的无参考音视频质量评价终端，包括存储器、处理器及存储在存储器上并能在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时用于执行权利要求1-8任一所述的方法。