CN111479105B - 一种视频及音频联合质量评价方法和装置 - Google Patents

一种视频及音频联合质量评价方法和装置 Download PDF

Info

Publication number
CN111479105B
CN111479105B CN202010171567.0A CN202010171567A CN111479105B CN 111479105 B CN111479105 B CN 111479105B CN 202010171567 A CN202010171567 A CN 202010171567A CN 111479105 B CN111479105 B CN 111479105B
Authority
CN
China
Prior art keywords
quality
video
audio
prediction
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010171567.0A
Other languages
English (en)
Other versions
CN111479105A (zh
Inventor
翟广涛
闵雄阔
杨小康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010171567.0A priority Critical patent/CN111479105B/zh
Publication of CN111479105A publication Critical patent/CN111479105A/zh
Application granted granted Critical
Publication of CN111479105B publication Critical patent/CN111479105B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4756End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for rating content, e.g. scoring a recommended movie

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明提供了一种视频及音频联合质量评价方法,包括:利用视频质量评价模型预测视频质量,得到视频预测质量分数Qv及视频预测质量特征fv;利用音频质量评价模型预测音频质量,得到音频预测质量分数Qa及音频预测质量特征fa;对视频预测质量分数Qv及音频预测质量分数Qa分别进行归一化处理,得到归一化的视频预测质量分数
Figure DDA0002409362760000011
及音频预测质量分数
Figure DDA0002409362760000012
融合归一化的视频预测质量分数
Figure DDA0002409362760000013
及音频预测质量分数
Figure DDA0002409362760000014
或,融合视频预测质量特征fv及音频预测质量特征fa,进而得到预测的视频及音频联合质量分数Qav或特征fav。同时提供了一种视频及音频联合质量评价装置。利用本发明提供的方法和装置,可有效地评价音频和视频的总体体验质量。

Description

一种视频及音频联合质量评价方法和装置
技术领域
本发明涉及多媒体质量评价技术领域,具体地,涉及一种视频及音频联合质量评价方法和装置。
背景技术
近年来,多媒体质量评价吸引了音频处理和视频处理等领域众多研究者的关注。在过去的几十年间,研究者们提出了大量的客观质量评价算法。Lin及Kuo在《W.Lin andC.-C.J.Kuo,“Perceptual visual quality metrics:A survey,”Journal of VisualCommunication and Image Representation,vol.22,no.4,pp.297–312,2011.》中给出了视觉质量评价的综述,Wang及Bovik在《Z.Wang and Alan C.Bovik,“Mean squared error:Love it or leave it?A new look at signal fidelity measures,”IEEE SignalProcessing Magazine,vol.26,no.1,pp.98-117,2009.》、《Z.Wang and Alan C.Bovik,“Reduced-and no-reference image quality assessment,”IEEE Signal ProcessingMagazine,vol.28,no.6pp.29-40,2011.》中给出了全参考、半参考和无参考质量评价的综述,Chikkerur等人在《S.Chikkerur,V.Sundaram,M.Reisslein,and L.J.Karam,“Objective video quality assessment methods:A classification,review,andperformance comparison,”IEEE Transactions on Broadcasting,vol.57,no.2,pp.165-182,2011.》中给出视频质量评价的综述,而Campbell等人在《D.Campbell,E.Jones,andM.Glavin,“Audio quality assessment techniques—A review,and recentdevelopments,”Signal Processing,vol.89,no.8,pp.1489-1500,2009.》中给出了音频质量评价的综述。
尽管上述现有技术中已经提出了体验质量评价模型,但是这些现有研究大多只聚焦于单一模态的信号,尤其是单一的视觉模态信号,即图像或视频,而忽略了同样非常重要的听觉模态信号的影响。实际上,人类感知外界信息的过程是一个多模态信号相互竞争及融合的过程,不同模态信号之间会相互影响,因此我们在处理多媒体信号时也应该同时考虑多模态信号之间的相互影响。与单一模态质量评价的广泛研究相比,音视频跨模态质量评价的受关注程度更小,但是同时考虑音视频多模态的信号更加贴近实际应用情况。You等人在《J.You,U.Reiter,M.M.Hannuksela,M.Gabbouj,and A.Perki,“Perceptual-basedquality assessment for audio–visual services:A survey,”Signal Processing:Image Communication,vol.25,no.7,pp.482-501,2010.》中给出了音视频质量评价的综述,但是该技术中为了研究视听觉信号之间的相互影响以及其它影响视听质量评价的因素,通常需要对多模态感知进行基础的研究,而这些研究通常通过一些视听觉实验来实现。总的来说,这些模型都不基于内容分析,而是直接从比特率、编码器类型等参数中估计音视频质量,因此应用场景十分受限。
目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。
发明内容
针对上述现有技术中存在的上述不足,本发明的目的是提供一种视频及音频联合质量评价方法和装置,该方法首先分别描述音视频两种模态各自的体验质量,然后对两种模态的预测质量进行处理后进行感知质量融合,从而构建视频及音频联合质量评价模型。
本发明是通过以下技术方案实现的。
根据本发明的第一方面,提供一种视频及音频联合质量评价方法,包括:
S1:利用视频质量评价模型预测输入视频信号的视频质量,得到视频预测质量分数Qv及视频预测质量特征fv;利用音频质量评价模型预测输入音频信号的音频质量,得到音频预测质量分数Qa及音频预测质量特征fa
S2:对S1中得到的视频预测质量分数Qv及音频预测质量分数Qa分别进行归一化处理,得到归一化的视频预测质量分数
Figure BDA0002409362740000021
及音频预测质量分数
Figure BDA0002409362740000025
S3:融合S2中得到的归一化的视频预测质量分数
Figure BDA0002409362740000023
及音频预测质量分数
Figure BDA0002409362740000026
或,融合S1中得到的视频预测质量特征fv及音频预测质量特征fa,进而得到预测的视频及音频联合质量分数Qav或特征fav
优选地,所述S1中,采用如下任意一种或任意多种视频质量评价方法作为视频质量评价模型,并对输入视频信号进行视频质量预测:
-视频多方法评价融合算法VMAF;
-时空半参考熵差指标STRRED;
-空域高效熵差指标SpEED;
-视频质量模型VQM;
-结构相似性指标SSIM;
-多尺度结构相似性指标MS-SSIM;
-像素域视觉信息保真度算法VIFP;
-特征相似性算法FSIM;
-梯度幅值相似性偏差算法GMSD。
优选地,所述S1中,采用如下任意一种或任意多种音频质量评价方法作为音频质量评价模型,并对输入音频信号进行音频质量预测:
-音频质量感知评价模型PEAQ;
-短时客观清晰度指标STOI;
-模拟语音质量客观监听算法ViSQOL;
-对数似然值比例LLR;
-信噪比SNR;
-分段信噪比segSNR。
优选地,所述S2中,对音频预测质量分数Qa进行归一化处理的方法,包括:
对音频预测质量分数Qa进行单调上升归一化处理的方法为:
Figure BDA0002409362740000031
对音频预测质量分数Qa进行单调下降归一化处理的方法为:
Figure BDA0002409362740000032
其中,
Figure BDA0002409362740000034
Figure BDA0002409362740000035
分别是Qa的已知值的边界;
归一化后的音频预测质量分数
Figure BDA0002409362740000036
在[0,1]范围内具有单调趋势,并与归一化后的视频预测质量分数
Figure BDA0002409362740000037
具有相同的单调趋势。
优选地,所述
Figure BDA0002409362740000038
Figure BDA0002409362740000039
分别设定为Qa可能出现的最大值及Qa可能出现的最小值。
优选地,所述S2中,对视频预测质量分数Qv进行归一化处理的方法,包括:
对视频预测质量分数Qv进行单调上升归一化处理的方法为:
Figure BDA0002409362740000033
对视频预测质量分数Qv进行单调下降归一化处理的方法为:
Figure BDA0002409362740000041
其中,
Figure BDA0002409362740000045
Figure BDA0002409362740000046
分别是Qv的已知值的边界;
归一化后的音频预测质量分数
Figure BDA0002409362740000047
在[0,1]范围内具有单调趋势,并与归一化后的音频预测质量分数
Figure BDA0002409362740000048
具有相同的单调趋势。
优选地,所述
Figure BDA0002409362740000049
Figure BDA00024093627400000410
分别设定为Qa可能出现的最大值及Qa可能出现的最小值。
优选地,所述S3中,对归一化的视频预测质量分数
Figure BDA00024093627400000411
及音频预测质量分数
Figure BDA00024093627400000412
进行融合,采用如下任意一种或任意多种方法:
-乘积方式的融合方法:
Figure BDA0002409362740000042
其中,Qav为预测的音视频联合质量分数;
-加权乘积方式的融合方法:
Figure BDA0002409362740000043
其中,0≤w≤1,用于控制两种模态之间的相对权重;
-采用经过数据训练的回归器进行融合:
Figure BDA0002409362740000044
其中,回归器SVR利用单一模态的质量预测分数
Figure BDA00024093627400000413
Figure BDA00024093627400000414
以及给定的主观音视频质量真值来进行训练。
优选地,所述S3中,对视频预测质量特征fv及音频预测质量特征fa进行融合的方法为:
采用回归器进行融合:
fav=SVR(Fv,fa)
其中,fav为预测的音视频联合质量特征。
根据本发明的第二方面,提供一种视频及音频联合质量评价装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述的视频及音频联合质量评价方法。
与现有技术相比,本发明具有如下有益效果:
本发明提供的一种视频及音频联合质量评价方法,通过选取适用于视觉信号的二维图像质量描述子(即S1中所采用的任意一种或任意多种视频质量评价方法)作为视频质量评价模型,利用视频质量评价模型预测视频质量,利用音频质量评价模型预测音频质量,对视频预测质量分数及音频预测质量分数进行归一化,融合归一化的视频预测质量分数及音频预测质量分数,或,融合视频预测质量特征及音频预测质量特征,得到预测的视频及音频联合质量,该视频及音频联合质量预测结果可有效地评价音视频总体体验质量。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例所提供的视频及音频联合质量评价方法总体流程框图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
本发明实施例所提供的一种视频及音频联合质量评价方法,如图1所示,其具体实施步骤如下所述:
第一步、利用视频质量评价模型预测视频质量
具体地,需要利用视频质量评价模型来预测视频质量,可以从现有的视频质量评价方法中选择任意一种或任意多种作为视频质量评价模型:
视频多方法评价融合算法(Video Multimethod Assessment Fusion,VMAF);
时空半参考熵差指标(Spatio-temporal Reduced Reference EntropicDifferencing,STRRED);
空域高效熵差指标(Spatial Efficient Entropic Differencing,SpEED);
视频质量模型(Video Quality Model,VQM);
结构相似性指标(Structural Similarity,SSIM);
多尺度结构相似性指标(Multi-Scale Structural Similarity,MS-SSIM);
像素域视觉信息保真度算法(Visual Information Fidelity in Pixel domain,VIFP);
特征相似性算法(Feature Similarity,FSIM);
梯度幅值相似性偏差算法(Gradient Magnitude Similarity Deviation,GMSD)。
第二步、利用音频质量评价模型预测音频质量
具体需要利用音频质量评价模型来预测音频质量,可以从现有的音频质量评价方法中选择任意一种或任意多种作为音频质量评价模型:
音频质量感知评价模型(Perceptual Evaluation of Audio Quality,PEAQ);
短时客观清晰度指标(Short-Time Objective Intelligibility measure,STOI);
模拟语音质量客观监听算法(Virtual Speech Quality Objective ListenerVISQOL,ViSQOL);
对数似然值比例(LogLikelihood Ratio,LLR);
信噪比(Signal-to-Noise Ratio,SNR);
分段信噪比(Segmental SNR,segSNR)。
第三步、对视频预测质量分数及音频预测质量分数进行归一化
以音频预测质量分数Qa为例,具体归一化过程可以描述为
Figure BDA0002409362740000061
或者
Figure BDA0002409362740000062
其中,
Figure BDA0002409362740000065
Figure BDA0002409362740000066
是Qa的已知值的边界,这两个值通常根据经验设定,可以设定为:Qa可能出现的最大值及Qa可能出现的最小值。以上两式选择哪一式取决于最终需要一个单调上升还是单调下降的模型。
视频预测质量分数Qv也根据同样的方式进行归一化,此处不再赘述。
经过归一化后,视频预测质量分数和音频预测质量分数将在[0,1]范围内具有相同的单调趋势。
第四步、融合归一化的视频预测质量分数及音频预测质量分数,或,融合视频预测质量特征及音频预测质量特征,得到预测的视频及音频联合质量分数或特征
具体需要融合归一化的视频预测质量分数及音频预测质量分数得到预测的视频及音频联合质量分数,采用如下任意一种或任意多种方法;
最简单地,可以选择乘积作为融合方法:
Figure BDA0002409362740000063
其中,Qav为预测的视频及音频联合质量分数;
鉴于视频模态和音频模态通常具有不同的重要程度,还可以使用如下的加权乘积作为融合方法:
Figure BDA0002409362740000064
其中,0≤w≤1,用于控制两种模态之间的相对权重,最佳的权重通常取决于具体的应用;
此外,还可以利用现有的数据训练一个回归器来融合单一模态的预测质量,其中一种有效的方式是训练一个支持向量机:
Figure BDA0002409362740000071
其中,回归器SVR需要利用单一模态的质量预测分数以及主观音视频质量真值来进行训练。
具体需要融合从上述视频质量评价模型和音频质量评价模型中导出视频预测质量特征fv及音频预测质量特征fa的方法为:
利用SVR,对两种模态的预测质量特征进行融合:
fav=SVR(fv,fa)。
其中,fav为预测的视频及音频联合质量特征。
本发明另一实施例中,还提供一种视频及音频联合质量评价装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述任一项实施例的视频及音频联合质量评价方法。
实施效果:
为了对本发明上述实施例所提供的视频及音频联合质量评价方法的有效性进行验证,可以在LIVE-SJTU Audio and Video Quality Assessment(A/V-QA)Database数据库上对相关算法进行测试。LIVE-SJTU A/V-QA数据库是一个音视频质量评价数据库,包含从14段高质量参考音视频中利用24种音视频失真类型/程度生成的336段失真音视频。其中24种失真条件包含两种视频失真类型(压缩及压缩加缩放,都包含四级失真程度)及一种音频失真类型(压缩,包含三级失真程度)的任意组合。实验利用视频质量专家组(VQEG)在VideoQuality Experts Group(VQEG)Phase I Full Reference-TV test中提出的中提出的以下两种评价标准来衡量音视频质量评价方法的性能好坏:Pearson linear correlationcoefficients(PLCC),Spearman rank order correlation coefficients(SRCC)。
具体地,将以下视频质量评价模型:
VMAF(《Z.Li,A.Aaron,I.Katsavounidis,A.Moorthy,and M.Manohara,“Toward apractical perceptual video quality metric,”The Netflix Tech Blog,2016.》)、STRRED(《R.Soundararajan and A.C.Bovik,“Video quality assessment by reducedreference spatio-temporal entropic differencing,”IEEE Trans.CircuitsSyst.Video Technol.,vol.23,no.4,pp.684–694,2012.》)、SpEED(《C.G.Bampis,P.Gupta,R.Soundararajan,and A.C.Bovik,“SpEEDQA:Spatial efficient entropicdifferencing for image and video quality,”IEEE Signal Process.Lett.,vol.24,no.9,pp.1333–1337,2017.》)、VQM(《M.H.Pinson and S.Wolf,“A new standardizedmethod for objectively measuring video quality,”IEEE Trans.Broadcast.,vol.50,no.3,pp.312–322,2004.》)、SSIM(《Z.Wang,A.C.Bovik,H.R.Sheikh,and E.P.Simoncelli,“Image quality assessment:from error visibility to structural similarity,”IEEE Trans.Image Process.,vol.13,no.4,pp.600–612,2004.》)、MS-SSIM(《Z.Wang,E.P.Simoncelli,and A.C.Bovik,“Multiscale structural similarity for imagequality assessment,”in Proc.IEEE Asilomar Conf.Sig.,Syst.,Comput.,2003,pp.1398–1402.》)、VIFP(《H.R.Sheikh and A.C.Bovik,“Image information and visualquality,”IEEE Trans.Image Process.,vol.15,no.2,pp.430–444,2006.》)、FSIM(《L.Zhang,L.Zhang,X.Mou,and D.Zhang,“FSIM:A feature similarity index forimage quality assessment,”IEEE Trans.Image Process.,vol.20,no.8,pp.2378–2386,2011.》)、及GMSD(《W.Xue,L.Zhang,X.Mou,and A.C.Bovik,“Gradient magnitudesimilarity deviation:A highly efficient perceptual image quality index,”IEEETrans.Image Process.,vol.23,no.2,pp.684–695,2014.》)
以及以下音频质量评价模型:
PEAQ(《T.Thiede,W.C.Treurniet,R.Bitto,C.Schmidmer,T.Sporer,J.G.Beerends,and C.Colomes,“PEAQ-the ITU standard for objective measurementof perceived audio quality,”J.Audio Eng.Soc.,vol.48,no.1/2,pp.3–29,2000.》),STOI(《C.H.Taal,R.C.Hendriks,R.Heusdens,and J.Jensen,“An algorithm forintelligibility prediction of time–frequency weighted noisy speech,”IEEETrans.Audio,Speech,Language Process.,vol.19,no.7,pp.2125–2136,2011.》),VISQOL(《A.Hines,E.Gillen,D.Kelly,J.Skoglund,A.Kokaram,and N.Harte,“ViSQOLAudio:Anobjective audio quality metric for low bitrate codecs,”J.Acoust.Soc.Am.,vol.137,no.6,pp.EL449–EL455,2015.》),LLR(《Y.Hu and P.C.Loizou,“Evaluation ofobjective quality measures for speech enhancement,”IEEE Trans.Audio,Speech,Language Process.,vol.16,no.1,pp.229–238,2007.》),SNR,segSNR(《J.H.Hansen andB.L.Pellom,“An effective quality evaluation protocol for speech enhancementalgorithms,”in Proc.Int.Conf.Spoken Lang.Process.,vol.7,1998,pp.2819–2822.》)
利用乘积、加权乘积、基于质量分数的SVR融合、基于质量特征的SVR融合四种融合方式,进行两两融合即可得到本发明提供的所有视频及音频联合质量评价方法。利用乘积、加权乘积融合模型的性能测试结果如表1所示,基于质量分数的SVR融合、基于质量特征的SVR融合模型的性能测试结果如表2所示,从表1和表2可以看出,本发明提供的视频及音频联合质量评价方法可以有效地估计视频和音频的总体体验质量。
表1
Figure BDA0002409362740000091
表2
Figure BDA0002409362740000092
本发明上述实施例提供的一种视频及音频联合质量评价方法,通过选取适用于视觉信号的二维图像质量描述子(即S1中采用的任意一种或任意多种视频质量评价方法)作为视频质量评价模型,利用视频质量评价模型预测视频质量,利用音频质量评价模型预测音频质量,对视频预测质量分数及音频预测质量分数进行归一化,融合归一化的视频预测质量分数及音频预测质量分数或融合视频预测质量特征及音频预测质量特征,得到预测的视频及音频联合质量,本发明上述实施例所提供的方法,可有效地评价音视频总体体验质量。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (6)

1.一种视频及音频联合质量评价方法,其特征在于,包括:
S1:利用视频质量评价模型预测输入视频信号的视频质量,得到视频预测质量分数Qv及视频预测质量特征fv;利用音频质量评价模型预测输入音频信号的音频质量,得到音频预测质量分数Qa及音频预测质量特征fa
S2:对S1中得到的视频预测质量分数Qv及音频预测质量分数Qa分别进行归一化处理,得到归一化的视频预测质量分数
Figure FDA0003036794770000011
及音频预测质量分数
Figure FDA0003036794770000012
S3:融合S2中得到的归一化的视频预测质量分数
Figure FDA0003036794770000013
及音频预测质量分数
Figure FDA0003036794770000014
或,融合S1中得到的视频预测质量特征fv及音频预测质量特征fa,进而得到预测的视频及音频联合质量分数Qav或特征fav
所述S2中,对音频预测质量分数Qa进行归一化处理的方法,包括:
对音频预测质量分数Qa进行单调上升归一化处理的方法为:
Figure FDA0003036794770000015
对音频预测质量分数Qa进行单调下降归一化处理的方法为:
Figure FDA0003036794770000016
其中,
Figure FDA00030367947700000114
Figure FDA00030367947700000115
分别是Qa的已知值的边界;
归一化后的音频预测质量分数
Figure FDA0003036794770000017
在[0,1]范围内具有单调趋势,并与归一化后的视频预测质量分数
Figure FDA0003036794770000018
具有相同的单调趋势;
所述S2中,对视频预测质量分数Qv进行归一化处理的方法,包括:
对视频预测质量分数Qv进行单调上升归一化处理的方法为:
Figure FDA0003036794770000019
对视频预测质量分数Qv进行单调下降归一化处理的方法为:
Figure FDA00030367947700000110
其中,
Figure FDA00030367947700000111
Figure FDA00030367947700000112
分别是Qv的已知值的边界;
归一化后的音频预测质量分数
Figure FDA00030367947700000113
在[0,1]范围内具有单调趋势,并与归一化后的音频预测质量分数
Figure FDA0003036794770000021
具有相同的单调趋势;
所述S3中,对归一化的视频预测质量分数
Figure FDA0003036794770000022
及音频预测质量分数
Figure FDA0003036794770000023
进行融合,采用如下任意一种或任意多种方法:
-乘积方式的融合方法:
Figure FDA0003036794770000024
其中,Qav为预测的视频及音频联合质量分数;
-加权乘积方式的融合方法:
Figure FDA0003036794770000025
其中,0≤w≤1,用于控制两种模态之间的相对权重;
-采用经过数据训练的回归器进行融合:
Figure FDA0003036794770000026
其中,回归器SVR利用单一模态的质量预测分数
Figure FDA0003036794770000027
Figure FDA0003036794770000028
以及给定的主观音视频质量真值来进行训练;
所述S3中,对视频预测质量特征fv及音频预测质量特征fa进行融合的方法为:
采用回归器进行融合:
fav=SVR(fv,fa)
其中,fav为预测的视频及音频联合质量特征。
2.根据权利要求1所述的一种视频及音频联合质量评价方法,其特征在于,所述S1中,采用如下任意一种或任意多种视频质量评价方法作为视频质量评价模型,并对输入视频信号进行视频质量预测:
-视频多方法评价融合算法VMAF;
-时空半参考熵差指标STRRED;
-空域高效熵差指标SPEED;
-视频质量模型VQM;
-结构相似性指标SSIM;
-多尺度结构相似性指标MS-SSIM;
-像素域视觉信息保真度算法VIFP;
-特征相似性算法FSIM;
-梯度幅值相似性偏差算法GMSD。
3.根据权利要求1所述的一种视频及音频联合质量评价方法,其特征在于,所述S1中,采用如下任意一种或任意多种音频质量评价方法作为音频质量评价模型,并对输入音频信号进行音频质量预测:
-音频质量感知评价模型PEAQ;
-短时客观清晰度指标STOI;
-模拟语音质量客观监听算法ViSQOL;
-对数似然值比例LLR;
-信噪比SNR;
-分段信噪比segSNR。
4.根据权利要求1所述的一种视频及音频联合质量评价方法,其特征在于,所述
Figure FDA0003036794770000031
Figure FDA0003036794770000032
分别设定为Qa可能出现的最大值及Qa可能出现的最小值。
5.根据权利要求1所述的一种视频及音频联合质量评价方法,其特征在于,所述
Figure FDA0003036794770000033
Figure FDA0003036794770000034
分别设定为Qv可能出现的最大值及Qv可能出现的最小值。
6.一种视频及音频联合质量评价装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-5任一所述的方法。
CN202010171567.0A 2020-03-12 2020-03-12 一种视频及音频联合质量评价方法和装置 Active CN111479105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010171567.0A CN111479105B (zh) 2020-03-12 2020-03-12 一种视频及音频联合质量评价方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010171567.0A CN111479105B (zh) 2020-03-12 2020-03-12 一种视频及音频联合质量评价方法和装置

Publications (2)

Publication Number Publication Date
CN111479105A CN111479105A (zh) 2020-07-31
CN111479105B true CN111479105B (zh) 2021-06-04

Family

ID=71748281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010171567.0A Active CN111479105B (zh) 2020-03-12 2020-03-12 一种视频及音频联合质量评价方法和装置

Country Status (1)

Country Link
CN (1) CN111479105B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113473117B (zh) * 2021-07-19 2022-09-02 上海交通大学 一种基于门控循环神经网络的无参考音视频质量评价方法
CN113489971B (zh) * 2021-07-19 2022-08-23 上海交通大学 一种全参考音视频客观质量评价方法、系统及终端
CN113382232B (zh) * 2021-08-12 2021-11-19 北京微吼时代科技有限公司 监控音视频质量的方法和装置、系统、电子设备
CN117012228A (zh) * 2023-07-28 2023-11-07 支付宝(杭州)信息技术有限公司 训练评估模型、评估视频质量的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103379358A (zh) * 2012-04-23 2013-10-30 华为技术有限公司 评估多媒体质量的方法和装置
CN108683909A (zh) * 2018-07-12 2018-10-19 北京理工大学 Vr音视频整体用户体验质量评估方法
CN108933938A (zh) * 2018-08-23 2018-12-04 北京奇艺世纪科技有限公司 一种视频质量检验方法、装置及电子设备
CN109302603A (zh) * 2017-07-25 2019-02-01 中国移动通信集团北京有限公司 一种视频通话质量评估方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103379358A (zh) * 2012-04-23 2013-10-30 华为技术有限公司 评估多媒体质量的方法和装置
CN109302603A (zh) * 2017-07-25 2019-02-01 中国移动通信集团北京有限公司 一种视频通话质量评估方法和装置
CN108683909A (zh) * 2018-07-12 2018-10-19 北京理工大学 Vr音视频整体用户体验质量评估方法
CN108933938A (zh) * 2018-08-23 2018-12-04 北京奇艺世纪科技有限公司 一种视频质量检验方法、装置及电子设备

Also Published As

Publication number Publication date
CN111479105A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN111479105B (zh) 一种视频及音频联合质量评价方法和装置
CN107564513B (zh) 语音识别方法及装置
Zhou et al. Vision-infused deep audio inpainting
JP6855527B2 (ja) 情報を出力するための方法、及び装置
JP5049117B2 (ja) 音声および映像ソースデータを分離および評価する技術
Stewart et al. Robust audio-visual speech recognition under noisy audio-video conditions
US11138989B2 (en) Sound quality prediction and interface to facilitate high-quality voice recordings
JP4546767B2 (ja) 感情推定装置及び感情推定プログラム
JP3891111B2 (ja) 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム
JP2005531080A (ja) 視覚及び音声認識を介するコンテンツ格付けの測定
CN111479108B (zh) 基于神经网络的视频及音频联合质量评价方法和装置
CN105448305A (zh) 语音处理装置和语音处理方法
CN112446242A (zh) 声学场景分类方法、装置及相应设备
CN112232276B (zh) 一种基于语音识别和图像识别的情绪检测方法和装置
CN112967735A (zh) 语音质量检测模型的训练方法及语音质量的检测方法
CN111625661B (zh) 一种音视频片段分类方法及装置
Subakan et al. REAL-M: Towards speech separation on real mixtures
US8824783B2 (en) Method and apparatus for measuring video quality using at least one semi-supervised learning regressor for mean observer score prediction
CN113473117B (zh) 一种基于门控循环神经网络的无参考音视频质量评价方法
Su et al. Physics-driven diffusion models for impact sound synthesis from videos
CN111479109B (zh) 基于视听联合注意的视频质量评价方法、系统及终端
CN111479106B (zh) 一二维质量描述子融合的音视频联合质量评价方法及终端
JP6370751B2 (ja) ガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置、これらの方法及びプログラム
JP6404780B2 (ja) ウィナーフィルタ設計装置、音強調装置、音響特徴量選択装置、これらの方法及びプログラム
CN111508525B (zh) 一种全参考音频质量评价方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant