CN113473117B - 一种基于门控循环神经网络的无参考音视频质量评价方法 - Google Patents
一种基于门控循环神经网络的无参考音视频质量评价方法 Download PDFInfo
- Publication number
- CN113473117B CN113473117B CN202110814227.XA CN202110814227A CN113473117B CN 113473117 B CN113473117 B CN 113473117B CN 202110814227 A CN202110814227 A CN 202110814227A CN 113473117 B CN113473117 B CN 113473117B
- Authority
- CN
- China
- Prior art keywords
- short
- audio
- video
- time
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 52
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000000306 recurrent effect Effects 0.000 title claims description 25
- 230000005236 sound signal Effects 0.000 claims abstract description 42
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 10
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 8
- 230000007774 longterm Effects 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 9
- 238000012805 post-processing Methods 0.000 claims description 8
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000008447 perception Effects 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 6
- 238000001303 quality assessment method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4666—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/475—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
- H04N21/4756—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for rating content, e.g. scoring a recommended movie
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于门控循环神经网络的无参考音视频质量评价方法,首先通过短时特征提取模块中卷积神经网络提取视频信号和音频信号的短时特征,之后利用长时特征提取模块中门控循环神经网络从视频信号和音频信号的短时特征中学习相邻帧之间的关联性,提取长时特征,最后通过特征融合模块中全连接层将音频信号和视觉信号的长时特征进行融合,得到音视频客观质量评价分数。在短时特征提取时,首先将视频信号按时序依次将单帧图像分割为图像小块、音频信号通过短时傅里叶变换将短音频段转换为二维语谱图,之后利用卷积神经网络从图像小块和二维语谱图提取深层语义特征。本发明可有效地评价音视频的总体感知体验质量。
Description
技术领域
本发明涉及多模态媒体质量评价技术领域,具体地,涉及一种基于门控循环神经网络的无参考音视频质量评价方法。
背景技术
随着互联网和移动智能终端的发展,流媒体的流量迎来了飞速的增长,其中视频流量在全球数据流量占比与日增高,观看视频成为消费者生活中重要的娱乐方式和消息途径。在流媒体系统中,大多数视频信号都伴随着音频信号。同时视觉和听觉是人们从周围世界收集信息的重要途径,绝大部分的外界信息均通过视觉和听觉进入大脑之中。因此,当消费者在享受音视频时,音频信号和视频信号的质量将直接影响着消费者的感知与体验。
目前流媒体传输系统大致包括音频或视频的采集、压缩、传输和显示等阶段,每个阶段都可能会造成音频或视频信号的失真,从而降低最终用户的体验感知。对于流媒体消费者来说,他们总是希望在更高分辨率和保真度的音视频系统中进行观看和收听,因此,为了保障流媒体消费者的用户体验能维持在一定水平之上,有必要开发设计一种有效的音视频质量评价系统,快速检测音视频质量,当检测到音视频质量不达标时,及时启动音视频的优化与修复,保障最终用户的体验感知。
根据质量评价主体的不同,质量评价方法又分为主观质量评价和客观质量评价两大类(《Z.Akhtar and T.H.Falk,“Audio-visual multimedia quality assessment:Acomprehensive survey,”IEEE Access,vol.5,pp.21090–21117,2017》)。主观质量评价虽然准确性高,但其耗时耗力,并且成本较高,无法用于大规模的视听信号评估和实时处理系统中。因此,在过去的几十年间,研究者们提出了大量的客观质量评价算法,但大部分方法聚焦于模态信号,即图像、视频及音频。较少研究者研究多模态客观质量评价,如音视频客观质量评价。You等人在《J.You,U.Reiter,M.M.Hannuksela,M.Gabbouj,and A.Perki,“Perceptual-based quality assessment for audio–visual services:A survey,”Signal Processing:Image Communication,vol.25,no.7,pp.482-501,2010.》中给出了音视频质量评价的综述。
由于关于人类感知理解的研究目前较少,针对听觉和视觉的感知过程尚未有明确解释,研究者无法确定感知过程中视觉和听觉信息的融合是如何进行的,部分研究提出听觉和视觉通道可能在人类感知形成的后期阶段被整合。因此,目前大多数研究者采用后期融合理论,即先分别处理听觉和视觉通道后,产生各通道的质量值,最后在后期整合,得到最终单一的感知质量。上述大部分研究成果集中于全参考音视频质量评价,而无参考音视频质量评价缺乏深入研究,由于无需参考音视频的任何信息,因此更难设计,但更容易适用于实时检测系统中。
并且目前音视频质量评价研究成果中,大部分研究者采用线性组合进行后期融合,少部分研究者引进浅层机器学习,例如支持向量机,较少研究者将深度机器学习应用到音视频质量评价方法中。由于音视频作为长时间有序序列,其相邻帧之间具有必然的关联性和联系性。有序序列中的长期依赖性,通过人类的记忆机制,影响着人类最终主观感知质量。目前大部分音视频客观质量评价方法中所用的音频和视频质量指标,均是通过评价依次单独单帧的质量分数后求均值所得,因此只是提取了音视频中单个帧所对应的短时特征,忽略了音视频有序序列中的长时特征对音视频整体质量的影响。后期融合中简单的线性组合和浅层机器学习也无法有效提取音视频有序序列的长时特征。
发明内容
为了弥补现有技术中上述的不足之处,本发明的目的是提供一种基于门控循环神经网络的无参考音视频质量评价方法、系统及终端。
本发明的第一目的,提供一种基于门控循环神经网络的无参考音视频质量评价方法,包括:
S1:从视频的单帧图像中随机截取多个图像小块,单帧图像并发的短音频段通过短时傅里叶变换,从一维时域波形信号转化为二维语谱图;利用预训练后的二维卷积神经网络分别从单帧图像小块及二维语谱图中提取短时特征即最深层语义特征,通过后处理获得视频信号和音频信号的短时特征;
S2:将S1中获得的视频信号和音频信号的短时特征,按时序分别输入门控循环神经网络,学习相邻帧之间的关联性,得到视频信号和音频信号的长时特征;
S3:将S2中得到的视频信号和音频信号的长时特征进行融合,得到音视频客观质量评价分数。
优选地,所述S1中,按照时序,依次从失真音视频的单帧图像中随机截取若干个分辨率适应神经网络输入的失真图像小块。
优选地,所述S1中,将离单帧图像最近的一段音频,切割成为失真短音频段,通过短时傅里叶变换将其转换为二维语谱图,其分辨率与预训练后的神经网络的输入分辨率大小相同。
优选地,所述S2中,利用预训练后的神经网络分别从视频图像小块及二维语谱图中提取最深层语义特征,包括:
对于每一个视频图像小块以及二维语谱图,均采用同一种神经网络提取短时特征;
所述神经网络,利用预训练后的图像卷积神经网络,通过移除神经网络的最后全连接层和池化层,来提取最深层语义特征。
优选地,在短时特征提取过程中,对单帧图像进行跳帧操作,即按照时序等时间间隔,选取若干视频帧及并发短音频段,提取短时特征。
优选地,在短时特征提取过程中,首先利用预训练后的神经网络提取最深层语义特征后,通过全局平均池化操作和全局标准差池化操作对最深层语义特征进行信息压缩,以获取特征变化信息。
优选地,所述S2中,后处理操作为:
对于从图像小块中提取的短时特征,对单帧图像对应的所有图像小块的短时特征计算平均值,作为失真音视频中该帧图像的短时特征;
将单帧图像和短音频段的短时特征,按时序排列,获得视频信号和音频信号的短时特征。
优选地,所述S3中,得到视频信号和音频信号的短时特征后,经过全连接层降维后,分别按时序输入门控循环神经网络,得到视频信号和音频信号的长时特征。
优选地,所述S4中,将视频帧和并发短音频段的长时特征进行融合,包括:
将视频信号和音频信号的长时特征,输入由三层全连接层组成神经网络,融合视频信号和音频信号的长时特征,输出音视频的客观质量评价分数。
本发明的第二目的,提供一种基于门控循环神经网络的无参考音视频质量评价系统,包括:
短时特征提取模块:从视频的单帧图像中随机截取多个图像小块,单帧图像并发的短音频段通过短时傅里叶变换,从一维时域波形信号转化为二维语谱图;利用预训练后的二维卷积神经网络分别从单帧图像小块及二维语谱图中提取短时特征即最深层语义特征,通过后处理获得视频信号和音频信号的短时特征;
长时特征提取模块:将获得的视频信号和音频信号的短时特征,按时序分别输入门控循环神经网络,学习相邻帧之间的关联性,得到视频信号和音频信号的长时特征;
特征融合模块:将得到的视频信号和音频信号的长时特征进行融合,得到音视频客观质量评价分数。
本发明的第三目的,提供一种基于门控循环神经网络的无参考音视频质量评价终端,包括存储器、处理器及存储在存储器上并能在处理器上运行的计算机程序,所述处理器执行所述程序时用于执行所述的基于门控循环神经网络的无参考音视频质量评价方法。
与现有技术相比,本发明具有如下有益效果:
本发明提供的一种基于门控循环神经网络的无参考音视频质量评价方法、系统及终端,首先利用卷积神经网络提取视频信号和音频信号的短时特征,即卷积神经网络的最深层语义特征,之后将短时特征输入门控循环神经网络学习相邻帧之间的关联性,提取长时特征,最后利用全连接层将音频信号和视觉信号的长时特征进行融合,得到最终的客观质量评价分数。此方法在无参考情况下可有效地评价音视频总体体验质量,并优于目前已提出前沿的无参考音视频客观质量评价方法,不仅将深度学习方法融入无参考音视频客观质量评价领域,并且考虑了相邻帧之间关联性对音视频整体质量的影响。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例的基于门控循环神经网络的无参考音视频质量评价方法总体流程框图;
图2为本发明一实施例所提供的视频短时特征提取的流程框图;
图3为本发明一实施例所提供的音频短时特征提取的流程框图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
本发明实施例提供了一种基于门控循环神经网络的无参考音视频质量评价方法,参照图1所示,包括如下步骤:
S1:从视频的单帧图像中随机截取多个图像小块,单帧图像并发的短音频段通过短时傅里叶变换,从一维时域波形信号转化为二维语谱图;利用预训练后的二维卷积神经网络分别从单帧图像小块及二维语谱图中提取短时特征即最深层语义特征,通过后处理获得视频信号和音频信号的短时特征;
S2:将S1中获得的视频信号和音频信号的短时特征,按时序分别输入门控循环神经网络,学习相邻帧之间的关联性,得到视频信号和音频信号的长时特征;
S3:将S2中得到的视频信号和音频信号的长时特征进行融合,得到音视频客观质量评价分数。
本发明实施例采用短时特征和长时特征,可有效地评价音视频的总体感知体验质量。
基于上述相同构思,在本发明另一实施例中,还提供一种基于门控循环神经网络的无参考音视频质量评价系统,如图1所示,包括:
短时特征提取模块:从视频的单帧图像中随机截取多个图像小块,单帧图像并发的短音频段通过短时傅里叶变换,从一维时域波形信号转化为二维语谱图;利用预训练后的二维卷积神经网络分别从单帧图像小块及二维语谱图中提取短时特征即最深层语义特征,通过后处理获得视频信号和音频信号的短时特征;
长时特征提取模块:将获得的视频信号和音频信号的短时特征,按时序分别输入门控循环神经网络,学习相邻帧之间的关联性,得到视频信号和音频信号的长时特征;
特征融合模块:将得到的视频信号和音频信号的长时特征进行融合,得到音视频客观质量评价分数。
基于上述相同构思,在本发明另一实施例中,还提供一种基于门控循环神经网络的无参考音视频质量评价终端,包括存储器、处理器及存储在存储器上并能在处理器上运行的计算机程序,所述处理器执行所述程序时用于执行所述的基于门控循环神经网络的无参考音视频质量评价方法。
具体的,以下对上述实施例中具体实现细节进行说明:
如图1所示,本发明上述实施例的方法、系统,主要包括三大部分:
第一,短时特征提取,在具体实施例中,可以包括如下两部分:
-单帧图像的短时特征提取
首先从失真视频帧中随机截取若干个分辨率适应神经网络输入的图像小块,将图像小块输入预训练后的卷积神经网络中,提取其最深层的语义特征,通过全局平均池化操作和全局标准差池化操作压缩特征信息后,将此失真视频帧对应的图像小块的短时特征求平均后得到当前视频帧的短时特征。
在本实施例中,采用了经过ImagNet预训练的ResNet50网络,该网络的最后一层全连接层和池化层被去除。视频帧截取的图像小块的分辨率大小为224×224,从每一个视频帧中截取的图像小块数量为25。
-短音频段短时特征提取
截取离视频帧最近的一段音频,将此失真短音频段通过短时傅里叶变换转换为二维语谱图后,输入经过ImagNet预训练后的ResNet网络中,提取其最深层的语义特征,通过全局平均池化操作和全局标准差池化操作压缩特征信息后,得到失真短音频段的短时特征,作为失真视频帧对应的短音频段的短时特征。
在上述短时傅里叶变换过程中,通过调节相关参数,将生成的二维语谱图分辨率匹配经ImagNet预训练后神经网络的输入分辨率。具体的,短时傅立叶变换中,采用的窗函数的长度为t毫秒,每次滑动步长为w毫秒,两个窗之间存在P%的重叠区域,对离视频帧最近的N×t毫秒的音频信号进行计算;对于频率轴,从梅尔尺度上均匀采样N个频率点,然后转换至赫兹尺度,其中采样频率点的频率范围为20Hz至20kHz。在本实施例中,最后输出的二维语谱图的分辨率同样为224×224,相关参数具体设定如下:
采用的窗函数为汉明窗(hamming),窗的长度为20ms,每次滑动步长为5ms,因此存在的重叠区域,由此选取离视频帧最近224×5=1120ms短音频段。在计算短时傅里叶变换时,对于频率轴,从梅尔尺度上均匀采样224个频率点,然后转换至赫兹尺度,而采样频率点的频率范围为20Hz至20kHz,即人耳能听到的频率范围。赫兹尺度至梅尔尺度的转换函数为
其中f及m分别为赫兹尺度和梅尔尺度上的频率。
第二,长时特征提取
将从短时特征特征模块中提取到单帧图像和短音频段的短时特征,按时序排列,获得视频信号和音频信号的短时特征。经过全连接层降维后,按时序输入门控循环神经网络,学习相邻帧之间的关联性后,获得视频信号和音频信号长时特征。
第三,特征融合
将长时特征输入由三层全连接层组成的神经网络,进行多模态特征融合,计算得到最终质量预测得分。
此外,为了降低计算量,在其他优选实施例中,可以在训练及测试的时候进行跳帧处理,即等时间间隔从视频帧和短音频段中选择一帧及其对应的音频段进行训练和测试。比如,在本实施例中,每2帧视频帧和对应的短音频段计算一次感知质量,最后融合抽样的视频帧及短音频段的特征得到最终质量预测得分。
实施效果:
为了对本发明上述实施例中所提供的基于门控循环神经网络的无参考音视频质量评价方法的有效性进行验证,接下来在LIVE-SJTU Audio and Video QualityAssessment(A/V-QA)Database数据库上进行实验测试。LIVE-SJTU A/V-QA数据库由14个原始音视频和336个失真版本组成,分别对每个序列均由35位人类受试者进行了主观质量评定。其中视频信号有两种失真受损方式,分别是HEVC压缩和空间下采样后的压缩,两种视频失真方式都设定四种程度,由此视频共有八种失真程度。而音频信号通过高级音频编码(AAC)造成失真编码,共用三种程度的压缩失真。由此每个原始音视频共有24个失真版本(24=8(视频信号失真程度个数)×3(音频信号失真程度个数))。根据视频质量专家组(VQEG)在Video Quality Experts Group(VQEG)Phase I Full Reference-TV test中提出的标准,实验中选择以下两种评价标准来衡量音视频质量评价方法的性能好坏:Pearsonlinear correlation coefficients(PLCC)和Spearman rank order correlationcoefficients(SRCC)。
实验过程中,利用分段平均评估方法(segmented mean assessment method,SMAM)将训练集进行扩展。SMAM会将训练集中的音视频序列分割为多个持续时间相同的短音视频序列,以扩大训练集的大小。训练集中每个分割后的短音视频序列,均作为单独的训练数据,其标签与原始音视频序列的主观质量评分相同。在测试过程中,首先对测试集中的音视频序列按照同样分割段数,分割为多个持续时间相同的短音视频,将其分别单独输入模型进行质量评分,然后将此音视频序列对应的所有短音视频序列质量得分,取平均值作为原始音视频序列的质量评分。
表1
无参考情况下的性能测试结果如表1所示,实验过程中通过改变SMAM方法的参数,进行对比实验,分别将SMAM方法中音视频切割后的段数设置为1、2、4和6。从该表中可以看出,本发明提出的方法在无参考情况下可以有效地评价音视频的总体体验质量,此外在SMAM中设定合适的切割后段数,可以提高整体方法性能。
本发明提供的一种基于门控循环神经网络的无参考音视频质量评价方法,在无参考情况下可有效地评价音视频总体体验质量。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (6)
1.一种基于门控循环神经网络的无参考音视频质量评价方法,其特征在于,包括:
S1:从视频的单帧图像中随机截取多个图像小块,单帧图像并发的短音频段通过短时傅里叶变换,从一维时域波形信号转化为二维语谱图;利用预训练后的二维卷积神经网络分别从单帧图像小块及二维语谱图中提取短时特征,即最深层语义特征,通过后处理获得视频信号和音频信号的短时特征;
S2:将S1中获得的视频信号和音频信号的短时特征,按时序分别输入门控循环神经网络,学习相邻帧之间的关联性,得到视频信号和音频信号的长时特征;
S3:将S2中得到的视频信号和音频信号的长时特征进行融合,得到音视频客观质量评价分数;
所述S1中利用预训练后的二维卷积神经网络分别从单帧图像小块及二维语谱图中提取短时特征,即最深层语义特征,包括:对于每一个视频图像小块以及二维语谱图,均采用同一种神经网络提取短时特征;
所述二维卷积神经网络为图像卷积神经网络,通过移除所述图像卷积神经网络的最后全连接层和池化层,来提取最深层语义特征;
在利用预训练后的二维卷积神经网络提取最深层语义特征后,通过全局平均池化操作和全局标准差池化操作对最深层语义特征进行信息压缩,以获取特征变化信息;
所述S1中,所述后处理操作为:
对于从图像小块中提取的短时特征,对单帧图像对应的所有图像小块的短时特征计算平均值,作为失真音视频中该帧图像的短时特征;
将单帧图像和短音频段的短时特征,按时序排列,获得视频信号和音频信号的短时特征;
所述S3包括:将视频信号和音频信号的长时特征,输入由三层全连接层组成神经网络,融合视频信号和音频信号的长时特征,输出音视频的客观质量评价分数。
2.根据权利要求1所述的一种基于门控循环神经网络的无参考音视频质量评价方法,其特征在于,所述S1中:
按照时序,依次从失真音视频的单帧图像中随机截取若干个分辨率适应所述二维卷积神经网络输入的失真图像小块;
将离单帧图像最近的一段音频,切割成为失真短音频段,通过短时傅里叶变换将其转换为二维语谱图,其分辨率与预训练后的二维卷积神经网络的输入分辨率大小相同。
3.根据权利要求1所述的一种基于门控循环神经网络的无参考音视频质量评价方法,其特征在于,在短时特征提取过程中,对单帧图像进行跳帧操作,即按照时序等时间间隔,选取若干视频帧及并发短音频段,提取短时特征。
4.根据权利要求1所述的一种基于门控循环神经网络的无参考音视频质量评价方法,其特征在于,所述S2中,得到视频信号和音频信号的短时特征后,经过全连接层降维后,分别按时序输入门控循环神经网络,得到视频信号和音频信号的长时特征。
5.一种基于门控循环神经网络的无参考音视频质量评价系统,用于实现权利要求1-4任一项所述的一种基于门控循环神经网络的无参考音视频质量评价方法,其特征在于,包括:
短时特征提取模块:从视频的单帧图像中随机截取多个图像小块,单帧图像并发的短音频段通过短时傅里叶变换,从一维时域波形信号转化为二维语谱图;利用预训练后的二维卷积神经网络分别从单帧图像小块及二维语谱图中提取短时特征,即最深层语义特征,通过后处理获得视频信号和音频信号的短时特征;
长时特征提取模块:将获得的视频信号和音频信号的短时特征,按时序分别输入门控循环神经网络,学习相邻帧之间的关联性,得到视频信号和音频信号的长时特征;
特征融合模块:将得到的视频信号和音频信号的长时特征进行融合,得到音视频客观质量评价分数。
6.一种基于门控循环神经网络的无参考音视频质量评价终端,包括存储器、处理器及存储在存储器上并能在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时用于执行权利要求1-4任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110814227.XA CN113473117B (zh) | 2021-07-19 | 2021-07-19 | 一种基于门控循环神经网络的无参考音视频质量评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110814227.XA CN113473117B (zh) | 2021-07-19 | 2021-07-19 | 一种基于门控循环神经网络的无参考音视频质量评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113473117A CN113473117A (zh) | 2021-10-01 |
CN113473117B true CN113473117B (zh) | 2022-09-02 |
Family
ID=77881064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110814227.XA Active CN113473117B (zh) | 2021-07-19 | 2021-07-19 | 一种基于门控循环神经网络的无参考音视频质量评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113473117B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114463784B (zh) * | 2022-01-26 | 2024-09-03 | 开望(杭州)科技有限公司 | 一种基于视频-音频多模态深度学习的多人跳绳分析方法 |
CN114915779A (zh) * | 2022-04-08 | 2022-08-16 | 阿里巴巴(中国)有限公司 | 视频质量评估方法、装置、设备和存储介质 |
CN115278216A (zh) * | 2022-07-21 | 2022-11-01 | 深圳市康冠科技股份有限公司 | 射频信号源卡顿检测方法、系统、计算机设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2006043500A1 (ja) * | 2004-10-18 | 2008-05-22 | 日本電信電話株式会社 | 映像品質客観評価装置、評価方法およびプログラム |
CN110599468A (zh) * | 2019-08-30 | 2019-12-20 | 中国信息通信研究院 | 无参考视频质量评估方法及装置 |
CN110677639A (zh) * | 2019-09-30 | 2020-01-10 | 中国传媒大学 | 一种基于特征融合和循环神经网络的无参考视频质量评价方法 |
CN111479108A (zh) * | 2020-03-12 | 2020-07-31 | 上海交通大学 | 基于神经网络的视频及音频联合质量评价方法和装置 |
CN111479105A (zh) * | 2020-03-12 | 2020-07-31 | 上海交通大学 | 一种视频及音频联合质量评价方法和装置 |
CN112784698A (zh) * | 2020-12-31 | 2021-05-11 | 杭州电子科技大学 | 基于深层次时空信息的无参考视频质量评价方法 |
CN112954312A (zh) * | 2021-02-07 | 2021-06-11 | 福州大学 | 一种融合时空特征的无参考视频质量评估方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110837842B (zh) * | 2019-09-12 | 2024-09-06 | 腾讯科技(深圳)有限公司 | 一种无参考视频质量评估的方法、模型训练的方法及装置 |
CN111479106B (zh) * | 2020-03-12 | 2021-06-29 | 上海交通大学 | 一二维质量描述子融合的音视频联合质量评价方法及终端 |
-
2021
- 2021-07-19 CN CN202110814227.XA patent/CN113473117B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2006043500A1 (ja) * | 2004-10-18 | 2008-05-22 | 日本電信電話株式会社 | 映像品質客観評価装置、評価方法およびプログラム |
CN110599468A (zh) * | 2019-08-30 | 2019-12-20 | 中国信息通信研究院 | 无参考视频质量评估方法及装置 |
CN110677639A (zh) * | 2019-09-30 | 2020-01-10 | 中国传媒大学 | 一种基于特征融合和循环神经网络的无参考视频质量评价方法 |
CN111479108A (zh) * | 2020-03-12 | 2020-07-31 | 上海交通大学 | 基于神经网络的视频及音频联合质量评价方法和装置 |
CN111479105A (zh) * | 2020-03-12 | 2020-07-31 | 上海交通大学 | 一种视频及音频联合质量评价方法和装置 |
CN112784698A (zh) * | 2020-12-31 | 2021-05-11 | 杭州电子科技大学 | 基于深层次时空信息的无参考视频质量评价方法 |
CN112954312A (zh) * | 2021-02-07 | 2021-06-11 | 福州大学 | 一种融合时空特征的无参考视频质量评估方法 |
Non-Patent Citations (4)
Title |
---|
Quality Assessment of In-the-Wild Videos;Dingquan Li,Tingting Jiang,Ming Jiang;《Proceedings of the 27th ACM International Conference on Multimedia》;20191025;第2.1-3.3节 * |
Xiongkuo Min ; Guangtao Zhai ; Jiantao Zhou ; Mylène C.Q.Farias.Study of Subjective and Objective Quality Assessment of Audio-Visual Signals.《IEEE Transactions on Image Processing》.2020,6054-6068. * |
基于深度学习的视频质量评价研究综述;谭娅娅,孔广黔;《计算机科学与探索》;20210301;全文 * |
基于空时特征和注意力机制的无参考视频质量评价;朱泽,桑庆兵,张浩;《激光与光电子学进展》;20200930;第57卷(第18期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113473117A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113473117B (zh) | 一种基于门控循环神经网络的无参考音视频质量评价方法 | |
Min et al. | Study of subjective and objective quality assessment of audio-visual signals | |
CN112085102B (zh) | 基于三维时空特征分解的无参考视频质量评价方法 | |
Cao et al. | Attention-guided neural networks for full-reference and no-reference audio-visual quality assessment | |
US10049674B2 (en) | Method and apparatus for evaluating voice quality | |
CN109036382B (zh) | 一种基于kl散度的音频特征提取方法 | |
Seshadrinathan et al. | Automatic prediction of perceptual quality of multimedia signals—a survey | |
CN111479105B (zh) | 一种视频及音频联合质量评价方法和装置 | |
CN111479108B (zh) | 基于神经网络的视频及音频联合质量评价方法和装置 | |
CN112185410B (zh) | 音频处理方法及装置 | |
US20230326468A1 (en) | Audio processing of missing audio information | |
CN113554597A (zh) | 一种基于脑电特征的图像质量评价方法及装置 | |
CN111798875A (zh) | 一种基于三值量化压缩的vad实现方法 | |
Rix et al. | Models of human perception | |
CN113489971B (zh) | 一种全参考音视频客观质量评价方法、系统及终端 | |
Zheng et al. | Spectra restoration of bone-conducted speech via attention-based contextual information and spectro-temporal structure constraint | |
CN114996489A (zh) | 新闻数据的违规检测方法、装置、设备及存储介质 | |
Hu et al. | Blind image quality index with cross-domain interaction and cross-scale integration | |
EP4456064A1 (en) | Audio data processing method and apparatus, device, storage medium, and program product | |
CN116705059A (zh) | 一种音频半监督自动聚类方法、装置、设备及介质 | |
CN116403135A (zh) | 一种基于音视频特征的视频显著性预测方法和系统 | |
Tamm et al. | Pre-trained speech representations as feature extractors for speech quality assessment in online conferencing applications | |
CN114463784B (zh) | 一种基于视频-音频多模态深度学习的多人跳绳分析方法 | |
CN113326760B (zh) | 视频分类方法及装置 | |
CN117351988B (zh) | 一种基于数据分析的远程音频信息处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |