CN111479106B - 一二维质量描述子融合的音视频联合质量评价方法及终端 - Google Patents

一二维质量描述子融合的音视频联合质量评价方法及终端 Download PDF

Info

Publication number
CN111479106B
CN111479106B CN202010171586.3A CN202010171586A CN111479106B CN 111479106 B CN111479106 B CN 111479106B CN 202010171586 A CN202010171586 A CN 202010171586A CN 111479106 B CN111479106 B CN 111479106B
Authority
CN
China
Prior art keywords
dimensional
audio
quality
audio signal
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010171586.3A
Other languages
English (en)
Other versions
CN111479106A (zh
Inventor
闵雄阔
翟广涛
杨小康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010171586.3A priority Critical patent/CN111479106B/zh
Publication of CN111479106A publication Critical patent/CN111479106A/zh
Application granted granted Critical
Publication of CN111479106B publication Critical patent/CN111479106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4756End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for rating content, e.g. scoring a recommended movie

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明提供了一种一二维质量描述子融合的音视频联合质量评价方法及终端,通过对现有的适用于二维图像信号的视觉质量描述子进行有针对性的推广和降维操作,得到适用于一维音频信号的听觉质量描述子,然后融合上述二维图像质量描述子和一维音频质量描述子,从而构建音视频联合质量评价模型。包括:选取适用于视觉信号的二维图像质量描述子,通过将二维图像质量描述子中所有二维操作推广并降维至一维操作来设计适用于听觉信号的一维音频质量描述子,融合二维图像质量描述子和一维音频质量描述子得到音视频联合质量评价模型。本发明可有效地评价音频和视频的总体体验质量。

Description

一二维质量描述子融合的音视频联合质量评价方法及终端
技术领域
本发明涉及多媒体质量评价技术领域,具体地,涉及一种基于一维及二维信号质量描述子融合的全参考音视频联合质量评价方法、终端。
背景技术
近年来,多媒体质量评价吸引了音频处理和视频处理等领域众多研究者的关注。在过去的几十年间,研究者们提出了大量的客观视觉质量评价算法。Lin及Kuo给出了视觉质量评价的综述(《W.Lin and C.-C.J.Kuo,“Perceptual visual quality metrics:Asurvey,”Journal of Visual Communication and Image Representation,vol.22,no.4,pp.297–312,2011.》),Wang及Bovik给出了全参考、半参考和无参考质量评价的综述(《Z.Wang and Alan C.Bovik,“Mean squared error:Love it or leave it?A new lookat signal fidelity measures,”IEEE Signal Processing Magazine,vol.26,no.1,pp.98-117,2009.》,《Z.Wang and Alan C.Bovik,“Reduced-and no-reference imagequality assessment,”IEEE Signal Processing Magazine,vol.28,no.6pp.29-40,2011.》),Chikkerur等人给出视频质量评价的综述(《S.Chikkerur,V.Sundaram,M.Reisslein,and L.J.Karam,“Objective video quality assessment methods:Aclassification,review,and performance comparison,”IEEE Transactions onBroadcasting,vol.57,no.2,pp.165-182,2011.》),而Campbell等人给出了音频质量评价的综述(《D.Campbell,E.Jones,and M.Glavin,“Audio quality assessment techniques-A review,and recent developments,”Signal Processing,vol.89,no.8,pp.1489-1500,2009.》)。
尽管这些算法取得了令人鼓舞的结果,但是它们大多对单一模态的多媒体信号的质量进行评价,如单一的图像、视频或音频,而忽略了音视频多模态信号之间的相互影响及融合。与单一模态质量评价的广泛研究相比,音视频跨模态质量评价的受关注程度更小,但是同时考虑音视频多模态的信号更加贴近实际应用情况。You等人给出了音视频质量评价的综述(《J.You,U.Reiter,M.M.Hannuksela,M.Gabbouj,and A.Perki,“Perceptual-basedquality assessment for audio–visual services:A survey,”Signal Processing:Image Communication,vol.25,no.7,pp.482-501,2010.》)。为了研究视听觉信号之间的相互影响以及其它影响视听质量评价的因素,通常需要对多模态感知进行基础的研究,而这些研究通常通过一些视听觉实验来实现。总的来说,这些模型都不基于内容分析,而是直接从比特率、编码器类型等参数中估计音视频质量,因此应用场景十分受限。
目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。
发明内容
针对现有技术中存在的上述不足,本发明的目的是提供一种基于一维及二维质量描述子融合的全参考音视频联合质量评价方法、终端,该方法及终端通过对现有的适用于二维图像信号的视觉质量描述子进行一系列有针对性的推广和降维操作,来设计适用于一维音频信号的听觉质量描述子,然后融合上述二维图像质量描述子和一维音频质量描述子,从而构建音视频联合质量评价模型。
本发明是通过以下技术方案实现的。
一种一维及二维质量描述子融合的音视频联合质量评价方法,包括以下步骤:
S1:选取适用于视觉信号的二维图像质量描述子;
S2:将S1中选取的二维图像质量描述子中所有二维操作推广并降维至一维操作来,得到适用于听觉信号的一维音频质量描述子;
S3:融合S1中得到的二维图像质量描述子和S2中得到的一维音频质量描述子,得到音视频联合质量评价模型,采用所述音视频联合质量评价模型进行音视频联合质量评价。
优选地,所述S1中,通过视觉质量评价方法,选择得到如下任意一个或任意多个适用于视觉信号的二维图像质量描述子:
-结构相似性指标SSIM;
-多尺度结构相似性指标MS-SSIM;
-像素域视觉信息保真度算法VIFP;
-梯度幅值相似性算法GMSM;
-梯度幅值相似性偏差算法GMSD。
优选地,所述S2中,将S1中选取的适用于视觉信号的二维图像质量描述子中所有适用于图像信号的二维操作推广并降维至适用于音频信号的一维操作,从而得到以下任意一种或任意多种适用于听觉信号的一维音频质量描述子:
-一维结构相似性指标SSIM1D
所述一维结构相似性指标SSIM1D表述为:
Figure BDA0002409369090000031
其中,x表示参考音频信号,y表示失真音频信号,SSIM1D(x,y)表示失真音频信号和参考音频信号之间的一维结构相似性;μx表示参考音频信号的局部均值,μy表示失真音频信号的局部均值,σx表示参考音频信号的局部标准差,σy表示失真音频信号的局部标准差,σxy表示参考音频信号和失真音频信号的局部协方差,C1和C2分别为一个常数;
-一维多尺度结构相似性指标MS-SSIM1D
所述一维多尺度结构相似性指标MS-SSIM1D表述为:
Figure BDA0002409369090000032
其中,xs,ys,s=1,...,5分别为原始尺度及依次两倍下采样的参考音频信号和失真音频信号,ws为每个尺度的权重,SSIM1D计算两组一维音频信号之间的一维结构相似性指标;
-一维像素域视觉信息保真度算法VIFP1D
所述一维像素域视觉信息保真度算法VIFP1D表述为:
Figure BDA0002409369090000033
其中,IFx表示参考音频信号的信息量,IFy表示失真音频信号的信息量;
-一维梯度幅值相似性算法GMSM1D
一维梯度幅值相似性算法GMSM1D表述为:
Figure BDA0002409369090000034
其中,t=1,...,T表示音频样本的索引,GMS1D表示一维梯度幅值相似性;
Figure BDA0002409369090000035
其中,c表示一个根据音频样本动态范围设定的常数,mx(t)及my(t)分别表示一维音频信号x及y的梯度幅值
mx(t)=|x(t)*e|,
my(t)=|y(t)*e|,
其中,e=[10-1]表示一个一维梯度算子;
-一维梯度幅值相似性偏差算法GMSD1D
所述一维梯度幅值相似性偏差算法GMSD1D表述为:
GMSD1D=std(GMS1D(t)),
其中,std表示计算一维信号GMS1D(t)所有样本的标准差,GMS1D表示一维梯度幅值相似性。
优选地,所述一维结构相似性指标SSIM1D中,参数x,y,SSIM1D(x,y),μx,μv,σx,σy,σxy均为一维音频,其中μx,μy,σx,σy,σxy采用一维的局部时域窗计算得到,C1,C2两个常数根据音频信号的动态范围进行相应调整。
优选地,所述一维像素域视觉信息保真度算法VIFP1D中,采用一维的局部时域窗计算音频的局部均值、方差、及协方差,并将所有二维卷积操作替换为一维卷积操作。
优选地,所述步骤S3中,融合S1中得到的二维图像质量描述子及S2中得到的相对应的一维音频质量描述子,得到以下任意一个或任意多个音视频联合质量评价模型:
-视听结构相似性指标AVSSIM;
-视听多尺度结构相似性指标AVMSSSIM;
-视听像素域视觉信息保真度算法AVIFP;
-视听梯度幅值相似性算法AVGMSM;
-视听梯度幅值相似性偏差算法AVGMSD。
优选地,所述二维图像质量描述子与所述一维音频质量描述子的融合过程为:
Figure BDA0002409369090000041
其中,Q2D是利用二维图像质量描述子计算得出的视频质量;Q1D是利用相对应的一维音频质量描述子计算得出的音频质量;Qav为融合后的最终的音视频总体质量;w用于控制二维质量描述子和一维质量描述子之间的相对权重。
根据本发明的另一个方面,提供了一种终端,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时能够用于执行上述任一项所述的方法。
与现有技术相比,本发明具有如下有益效果:
本发明提供的基于一维及二维质量描述子融合的全参考音视频联合质量评价方法及终端,通过选取适用于视觉信号的二维图像质量描述子,通过将选取的二维图像质量描述子中所有二维操作推广并降维至一维操作来设计适用于听觉信号的一维音频质量描述子,融合二维图像质量描述子和一维音频质量描述子得到音视频联合质量评价模型等步骤,可有效地评价音视频总体体验质量。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例所提供的基于一维及二维信号质量描述子融合的全参考音视频联合质量评价方法总体流程框图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
本发明实施例提供了一种基于一维及二维信号质量描述子融合的全参考音视频联合质量评价方法(简称为一维及二维质量描述子融合的音视频联合质量评价方法),如图1所示,所述方法包括如下步骤:
第一步、选取适用于视觉信号的二维图像质量描述子
具体适用于视觉信号的二维图像质量描述子可以从现有的视觉质量评价方法中选择,得到如下任意一个或任意多个二维图像质量描述子:
结构相似性指标(Structural Similarity,SSIM);
多尺度结构相似性指标(Multi-Scale Structural Similarity,MS-SSIM);
像素域视觉信息保真度算法(Visual Information Fidelity in Pixel domain,VIFP);
梯度幅值相似性算法(Gradient Magnitude Similarity Mean,GMSM);
梯度幅值相似性偏差算法(Gradient Magnitude Similarity Deviation,GMSD)。
第二步、通过将第一步选取的二维图像质量描述子中所有二维操作推广并降维至一维操作来设计适用于听觉信号的一维音频质量描述子:
将第一步选取的适用于视觉信号的二维图像质量描述子中所有适用于图像信号的二维操作推广并降维至适用于音频信号的一维操作,从而得到以下适用于听觉信号的一维音频质量描述子:
一维结构相似性指标(SSIM1D);
一维多尺度结构相似性指标(MS-SSIM1D);
一维像素域视觉信息保真度算法(VIFP1D);
一维梯度幅值相似性算法(GMSM1D);
一维梯度幅值相似性偏差算法(GMSD1D);
其中:
一维结构相似性指标(SSIM1D)可以表述为:
Figure BDA0002409369090000061
其中:
x表示参考音频信号,y表示失真音频信号,SSIM1D(x,y)
表示失真音频信号和参考音频信号之间的一维结构相似性,μx
表示参考音频信号的局部均值,μy表示失真音频信号的局部均值,σx
表示参考音频信号的局部标准差,σy表示失真音频信号的局部标准差,σxy
表示参考音频信号和失真音频信号的局部协方差,C1是一个常数,C2是一个常数。
与计算图像之间的SSIM不同,在上述计算音频之间的SSIM1D表达式中x,y,SSIM1D(x,y),μx,μy,σx,σy,σxy均为一维音频而非二维图像信号,此外需要使用一维的局部时域窗,而非二维的局部图像窗来计算μx,μy,σx,σy,σxy,最后C1,C2两个常数也应该根据音频信号的动态范围而作相应调整;
一维多尺度结构相似性指标(MS-SSIM1D)可以表述为:
Figure BDA0002409369090000062
其中xs,ys,s=1,...,5分别为原始尺度及依次两倍下采样的参考音频信号和失真音频信号,ws为每个尺度的权重,SSIM1D计算两组一维音频信号之间的一维结构相似性指标;
一维像素域视觉信息保真度算法(VIFP1D)表达式为:
Figure BDA0002409369090000063
其中,IFx表示参考音频信号的信息量,IFy表示失真音频信号的信息量;
该表达式与像素域视觉信息保真度算法(Visual Information Fidelity inPixel domain,VIFP)类似,不过需要使用一维的局部时域窗,而非二维的局部图像窗来计算音频的局部均值、方差、及协方差,并且需要将所有二维卷积操作降为一维卷积操作;
一维梯度幅值相似性算法(GMSM1D)可以表述为:
Figure BDA0002409369090000064
其中,t=1,...,T表示音频样本的索引,GMS1D表示一维梯度幅值相似性;
Figure BDA0002409369090000071
其中,c是一个根据音频样本动态范围设定的常数,mx(t)及my(t)表示一维音频信号x及y的梯度幅值
mx(t)=|x(t)*e|,
my(t)=|y(t)*e|,
其中,e=[10-1]是一个一维梯度算子;
一维梯度幅值相似性偏差算法(GMSD1D)可以表述为:
GMSD1D=std(GMS1D(t)),
其中,std计算一维信号GMS1D(t)所有样本的标准差,GMS1D表示一维梯度幅值相似性。
第三步、融合第一步中得到的二维图像质量描述子和第二步中得到的一维音频质量描述子,进而得到音视频联合质量评价模型,采用该音视频联合质量评价模型进行音视频联合质量评价:
具体地,融合二维图像质量描述子及其相对应的一维音频质量描述子可以得到以下音视频联合质量评价模型:
视听结构相似性指标(Audio-Visual SSIM,AVSSIM);
视听多尺度结构相似性指标(Audio-Visual MS-SSIM,AVMSSSIM);
视听像素域视觉信息保真度算法(Audio-Visual VIFP,AVIFP);
视听梯度幅值相似性算法(Audio-Visual GMSM,AVGMSM);
视听梯度幅值相似性偏差算法(Audio-Visual GMSD,AVGMSD);
上述二维图像质量描述子及一维音频质量描述子的融合过程如下:
Figure BDA0002409369090000072
其中,Q2D是利用SSIM、MS-SSIM、VIFP、GMSM以及GMSD中的一种或多种二维图像质量描述子计算得出的视频质量;Q1D是相对应的利用SSIM1D、MS-SSIM1D、VIFP1D、GMSM1D以及GMSD1D中的一种或多种一维音频质量描述子计算得出的音频质量;Qav为融合后的最终的音视频总体质量,即AVSSIM,AVMSSSIM,AVIFP,AVGMSM以及AVGMSD;w用于控制二维质量描述子和一维质量描述子之间的相对权重。
实施效果:
为了对本发明上述实施例中得到的视听结构相似性指标(AVSSIM)、视听多尺度结构相似性指标(AVMSSSIM)、视听像素域视觉信息保真度算法(AVIFP)、视听梯度幅值相似性算法(AVGMSM)、视听梯度幅值相似性偏差算法(AVGMSD)的有效性进行验证,可以在LIVE-SJTU Audio and Video Quality Assessment(A/V-QA)Database数据库上对相关算法进行测试。LIVE-SJTU A/V-QA数据库是一个音视频质量评价数据库,包含从14段高质量参考音视频中利用24种音视频失真类型/程度生成的336段失真音视频。其中24种失真条件包含两种视频失真类型(压缩及压缩加缩放,都包含四级失真程度)及一种音频失真类型(压缩,包含三级失真程度)的任意组合。实验利用视频质量专家组(VQEG)在Video Quality ExpertsGroup(VQEG)Phase I Full Reference-TV test中提出的中提出的以下两种评价标准来衡量音视频质量评价方法的性能好坏:Pearson linear correlation coefficients(PLCC),Spearman rank order correlation coefficients(SRCC)。
AVSSIM、AVMSSSIM、AVIFP、AVGMSM、及AVGMSD的性能测试结果如表1所示,从表中可以看出,上述算法均可以有效地估计视频及音频的总体体验质量。除了AVSSIM、AVMSSSIM、AVIFP、AVGMSM、及AVGMSD方法外,实验将SSIM1D、MS-SSIM1D、VIFP1D、GMSM1D、及GMSD1D和现有的主流二维图像质量描述子,如VMAF(《Z.Li,A.Aaron,I.Katsavounidis,A.Moorthy,andM.Manohara,“Toward a practical perceptual video quality metric,”The NetflixTech Blog,2016.》)、STRRED(《R.Soundararajan and A.C.Bovik,“Video qualityassessment by reduced reference spatio-temporal entropic differencing,”IEEETrans.Circuits Syst.Video Technol.,vol.23,no.4,pp.684–694,2012.》)、SpEED(《C.G.Bampis,P.Gupta,R.Soundararajan,and A.C.Bovik,“SpEEDQA:Spatial efficiententropic differencing for image and video quality,”IEEE Signal Process.Lett.,vol.24,no.9,pp.1333–1337,2017.》)、VQM(《M.H.Pinson and S.Wolf,“A newstandardized method for objectively measuring video quality,”IEEETrans.Broadcast.,vol.50,no.3,pp.312–322,2004.》)、SSIM(《Z.Wang,A.C.Bovik,H.R.Sheikh,and E.P.Simoncelli,“Image quality assessment:from error visibilityto structural similarity,”IEEE Trans.Image Process.,vol.13,no.4,pp.600–612,2004.》)、MS-SSIM(《Z.Wang,E.P.Simoncelli,and A.C.Bovik,“Multiscale structuralsimilarity for image quality assessment,”in Proc.IEEE Asilomar Conf.Sig.,Syst.,Comput.,2003,pp.1398–1402.》)、VIFP(《H.R.Sheikh and A.C.Bovik,“Imageinformation and visual quality,”IEEE Trans.Image Process.,vol.15,no.2,pp.430–444,2006.》)、FSIM(《L.Zhang,L.Zhang,X.Mou,and D.Zhang,“FSIM:A featuresimilarity index for image quality assessment,”IEEE Trans.Image Process.,vo1.20,no.8,pp.2378-2386,2011.》)、及GMSD(《W.Xue,L.Zhang,X.Mou,and A.C.Bovik,“Gradient magnitude similarity deviation:A highly efficient perceptual imagequality index,”IEEE Trans.Image Process.,vol.23,no.2,pp.684-695,2014.》),进行了两两融合。相应的性能测试结果如表2所示,从表中可以看出本发明上述实施例提供的基于一维及二维质量描述子融合的音视频联合质量评价方法能够有效地评价音频和视频的总体体验质量。
表1
SRCC PLCC
AVSSIM 0.9077 0.9353
AVIFP 0.8822 0.9010
AVMSSIM 0.8925 0.9211
AVGMSD 0.9151 0.9300
AVGMSM 0.8896 0.9047
表2
Figure BDA0002409369090000101
基于本发明实施例所提供的基于一维及二维质量描述子融合的音视频联合质量评价方法,本发明实施例同时提供了一种终端,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时能够用于执行上述任一项所述的方法。
本发明上述实施例提供的一种基于一维及二维质量描述子融合的音视频联合质量评价方法,通过选取适用于视觉信号的二维图像质量描述子,通过将选取的二维图像质量描述子中所有二维操作推广并降维至一维操作来设计适用于听觉信号的一维音频质量描述子,融合二维图像质量描述子和一维音频质量描述子得到音视频联合质量评价模型等步骤,可有效地评价音视频总体体验质量。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (4)

1.一种一二维质量描述子融合的音视频联合质量评价方法,其特征在于,包括以下步骤:
S1:选取适用于视觉信号的二维图像质量描述子;
S2:将S1中选取的二维图像质量描述子中所有二维操作推广并降维至一维操作,得到适用于听觉信号的一维音频质量描述子;
S3:融合S1中得到的二维图像质量描述子和S2中得到的一维音频质量描述子,得到音视频联合质量评价模型,采用所述音视频联合质量评价模型进行音视频联合质量评价;
所述S1中,通过视觉质量评价方法,选择得到如下任意一个或任意多个适用于视觉信号的二维图像质量描述子:
-结构相似性指标SSIM;
-多尺度结构相似性指标MS-SSIM;
-像素域视觉信息保真度算法VIFP;
-梯度幅值相似性算法GMSM;
-梯度幅值相似性偏差算法GMSD;
所述S2中,将S1中选取的适用于视觉信号的二维图像质量描述子中所有适用于图像信号的二维操作推广并降维至适用于音频信号的一维操作,从而得到以下任意一种或任意多种适用于听觉信号的一维音频质量描述子:
-一维结构相似性指标SSIM1D
所述一维结构相似性指标SSIM1D表述为:
Figure FDA0003055373970000011
其中,x表示参考音频信号,y表示失真音频信号,SSIM1D(x,y)表示失真音频信号和参考音频信号之间的一维结构相似性;μx表示参考音频信号的局部均值,μy表示失真音频信号的局部均值,σx表示参考音频信号的局部标准差,σy表示失真音频信号的局部标准差,σxy表示参考音频信号和失真音频信号的局部协方差,C1和C2分别为一个常数;
-一维多尺度结构相似性指标MS-SSIM1D
所述一维多尺度结构相似性指标MS-SSIM1D表述为:
Figure FDA0003055373970000012
其中,xs,ys分别表示参考音频信号和失真音频信号,下标s=1,…,5表示五个不同的尺度,分别为原始尺度以及依次两倍下采样得到的四个尺度,ws为每个尺度的权重,SSIM1D计算两组一维音频信号之间的一维结构相似性指标;
-一维像素域视觉信息保真度算法VIFP1D
所述一维像素域视觉信息保真度算法VIFP1D表述为:
Figure FDA0003055373970000021
其中,IFx表示参考音频信号的信息量,IFy表示失真音频信号的信息量;
-一维梯度幅值相似性算法GMSM1D
一维梯度幅值相似性算法GMSM1D表述为:
Figure FDA0003055373970000022
其中,t=1,…,T表示音频样本的索引,GMS1D表示一维梯度幅值相似性;
Figure FDA0003055373970000023
其中,c表示一个根据音频样本动态范围设定的常数,mx(t)及my(t)分别表示一维音频信号x及y的梯度幅值
mx(t)=|x(t)*e|,
my(t)=|y(t)*e|,
x(t)为参考音频信号,y(t)为失真音频信号;
其中,e=[1 0 -1]表示一个一维梯度算子;
-一维梯度幅值相似性偏差算法GMSD1D
所述一维梯度幅值相似性偏差算法GMSD1D表述为:
GMSD1D=std(GMS1D(t)),
其中,std表示计算一维信号GMS1D(t)所有样本的标准差,GMS1D表示一维梯度幅值相似性;
所述步骤S3中,融合S1中得到的二维图像质量描述子及S2中得到的相对应的一维音频质量描述子,得到以下任意一个或任意多个音视频联合质量评价模型:
-视听结构相似性指标AVSSIM;
-视听多尺度结构相似性指标AVMSSSIM;
-视听像素域视觉信息保真度算法AVIFP;
-视听梯度幅值相似性算法AVGMSM;
-视听梯度幅值相似性偏差算法AVGMSD;
所述二维图像质量描述子与所述一维音频质量描述子的融合方法为:
Figure FDA0003055373970000031
其中,Q2D是利用二维图像质量描述子计算得出的视频质量;Q1D是利用相对应的一维音频质量描述子计算得出的音频质量;Qav为融合后的最终的音视频总体质量;w用于控制二维质量描述子和一维质量描述子之间的相对权重。
2.根据权利要求1所述的一二维质量描述子融合的音视频联合质量评价方法,其特征在于,所述一维结构相似性指标SSIM1D中,参数x,y,SSIM1D(x,y),μx,μy,σx,σy,σxy均为一维音频,其中μx,μy,σx,σy,σxy采用一维的局部时域窗计算得到,C1,C2两个常数根据音频信号的动态范围进行相应调整。
3.根据权利要求1所述的一二维质量描述子融合的音视频联合质量评价方法,其特征在于,所述一维像素域视觉信息保真度算法VIFP1D中,采用一维的局部时域窗计算音频的局部均值、方差、及协方差,并将所有二维卷积操作替换为一维卷积操作。
4.一种终端,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时能够用于执行权利要求1至3中任一项所述的方法。
CN202010171586.3A 2020-03-12 2020-03-12 一二维质量描述子融合的音视频联合质量评价方法及终端 Active CN111479106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010171586.3A CN111479106B (zh) 2020-03-12 2020-03-12 一二维质量描述子融合的音视频联合质量评价方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010171586.3A CN111479106B (zh) 2020-03-12 2020-03-12 一二维质量描述子融合的音视频联合质量评价方法及终端

Publications (2)

Publication Number Publication Date
CN111479106A CN111479106A (zh) 2020-07-31
CN111479106B true CN111479106B (zh) 2021-06-29

Family

ID=71747389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010171586.3A Active CN111479106B (zh) 2020-03-12 2020-03-12 一二维质量描述子融合的音视频联合质量评价方法及终端

Country Status (1)

Country Link
CN (1) CN111479106B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113473117B (zh) * 2021-07-19 2022-09-02 上海交通大学 一种基于门控循环神经网络的无参考音视频质量评价方法
CN113382232B (zh) * 2021-08-12 2021-11-19 北京微吼时代科技有限公司 监控音视频质量的方法和装置、系统、电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105100789A (zh) * 2015-07-22 2015-11-25 天津科技大学 一种视频质量评价方法
CN108683909A (zh) * 2018-07-12 2018-10-19 北京理工大学 Vr音视频整体用户体验质量评估方法
CN109302603A (zh) * 2017-07-25 2019-02-01 中国移动通信集团北京有限公司 一种视频通话质量评估方法和装置
CN110505472A (zh) * 2019-07-15 2019-11-26 武汉大学 一种h.265超高清视频质量评价方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105100789A (zh) * 2015-07-22 2015-11-25 天津科技大学 一种视频质量评价方法
CN109302603A (zh) * 2017-07-25 2019-02-01 中国移动通信集团北京有限公司 一种视频通话质量评估方法和装置
CN108683909A (zh) * 2018-07-12 2018-10-19 北京理工大学 Vr音视频整体用户体验质量评估方法
CN110505472A (zh) * 2019-07-15 2019-11-26 武汉大学 一种h.265超高清视频质量评价方法

Also Published As

Publication number Publication date
CN111479106A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN108428227B (zh) 基于全卷积神经网络的无参考图像质量评价方法
Zhang et al. SR-SIM: A fast and high performance IQA index based on spectral residual
CN111479106B (zh) 一二维质量描述子融合的音视频联合质量评价方法及终端
CN109872305B (zh) 一种基于质量图生成网络的无参考立体图像质量评价方法
CN109523506B (zh) 基于视觉显著图像特征增强的全参考立体图像质量客观评价方法
CN111479105B (zh) 一种视频及音频联合质量评价方法和装置
Fu et al. Blind image quality assessment for multiply distorted images via convolutional neural networks
CN109919901B (zh) 一种基于集成学习与随机森林的图像质量评价方法
CN111027412A (zh) 一种人体关键点识别方法、装置及电子设备
CN111080540B (zh) 一种图像修复模型的训练方法和计算机设备
JP2001134768A (ja) デジタル映像テクスチャー分析方法
CN113222902B (zh) 一种无参考图像质量评价方法及系统
CN112434717B (zh) 一种模型训练方法及装置
CN117131348A (zh) 基于差分卷积特征的数据质量分析方法及系统
CN104123723A (zh) 基于结构补偿的图像质量评价方法
Wang et al. Fast blur detection algorithm for UAV crack image sets
US7428003B2 (en) Automatic stabilization control apparatus, automatic stabilization control method, and recording medium having automatic stabilization control program recorded thereon
CN116597246A (zh) 模型训练方法、目标检测方法、电子设备及存储介质
CN109785376B (zh) 深度估计装置的训练方法、深度估计设备及存储介质
Zewdie et al. A new pooling strategy for image quality metrics: Five number summary
CN112733948B (zh) 一种全目标关联指标自动化测试方法、系统、介质及终端
CN115248993A (zh) 一种仿真场景模型真实性检测方法、装置及存储介质
CN114596287A (zh) 图像质量确定方法、装置、设备和存储介质
Liu et al. Texture smoothing quality assessment via information entropy
CN114463345A (zh) 基于动态自适应网络的多参数乳腺磁共振图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant