CN111508525A - 一种全参考音频质量评价方法及装置 - Google Patents

一种全参考音频质量评价方法及装置 Download PDF

Info

Publication number
CN111508525A
CN111508525A CN202010171569.XA CN202010171569A CN111508525A CN 111508525 A CN111508525 A CN 111508525A CN 202010171569 A CN202010171569 A CN 202010171569A CN 111508525 A CN111508525 A CN 111508525A
Authority
CN
China
Prior art keywords
dimensional
audio
quality evaluation
evaluation method
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010171569.XA
Other languages
English (en)
Other versions
CN111508525B (zh
Inventor
闵雄阔
翟广涛
杨小康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010171569.XA priority Critical patent/CN111508525B/zh
Publication of CN111508525A publication Critical patent/CN111508525A/zh
Application granted granted Critical
Publication of CN111508525B publication Critical patent/CN111508525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明提供了一种全参考音频质量评价方法及装置,方法包括:将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,得到适用于音频质量评价的方法;用降维得到的所述适用于音频质量评价的方法的一维质量描述子对待评价的音频信号的局部质量进行估计,得到局部音频质量估计结果;对所述局部音频质量估计结果进行时域池化,得到音频的整体质量评价结果。本发明提供的全参考音频质量评价方法及装置,可有效地评价音频质量。

Description

一种全参考音频质量评价方法及装置
技术领域
本发明涉及多媒体质量评价技术领域,具体地,涉及一种全参考音频质量评价方法及装置。
背景技术
近年来,多媒体质量评价吸引了音频处理和图像处理等领域众多研究者的关注。根据待评价信号的类型,多媒体质量评价可以分为:图像/视频质量评价(image/videoquality assessment)和音频质量评价(audio quality assessment)。因其数量大、信息丰富等特点,图像和视频等视觉信号质量评价受到了更多研究者的关注,并提出了大量的视觉质量评价方法。
比如,Zhou Wang等人在论文《Z.Wang,A.C.Bovik,H.R.Sheikh,andE.P.Simoncelli,“Image quality assessment:from error visibility to structuralsimilarity,”IEEE Trans.Image Process.,vol.13,no.4,pp.600–612,2004.》提出了一种结构相似性指标(Structural Similarity,SSIM)。Zhou Wang等人在论文《Z.Wang,E.P.Simoncelli,and A.C.Bovik,“Multiscale structural similarity for imagequality assessment,”in Proc.IEEE Asilomar Conf.Sig.,Syst.,Comput.,2003,pp.1398–1402.》中提出了一种多尺度结构相似性指标(Multi-Scale StructuralSimilarity,MS-SSIM)。Hamid Rahim Sheikh等人在论文《H.R.Sheikh and A.C.Bovik,“Image information and visual quality,”IEEE Trans.Image Process.,vol.15,no.2,pp.430–444,2006.》中提出了一种像素域视觉信息保真度算法(Visual InformationFidelity in Pixel domain,VIFP)。Wufeng Xue等人在论文《W.Xue,L.Zhang,X.Mou,andA.C.Bovik,“Gradient magnitude similarity deviation:A highly efficientperceptual image quality index,”IEEE Trans.Image Process.,vol.23,no.2,pp.684–695,2014.》中提出了一种梯度幅值相似性算法(Gradient Magnitude Similarity Mean,GMSM)和一种梯度幅值相似性偏差算法(Gradient Magnitude Similarity Deviation,GMSD)。上述方法都为图像质量评价领域的主流方法,并可以有效地估计图像或视频的视觉质量。
与视觉质量评价相比,音频质量评价领域受到的关注更少,因此该领域尚缺乏更加深入和广泛的研究。该领域内有一些音频质量评价方法,但是目前仍然缺乏高效的音频质量评价方法,尤其缺乏简单易用且广泛适用于各种类型音频信号的音频质量评价方法。在研究界,音频质量评价领域和图像质量评价领域长期处于孤立状态,而缺乏广泛的借鉴和交流。
发明内容
针对上述现有技术中存在的上述不足,本发明的目的是提供一种全参考音频质量评价方法及装置。
从本质上来说,图像为二维信号,而音频为一维信号,那么通过将主流的适用于二维图像信号的视觉质量评价算法推广至一维音频信号是否可行值得深入地研究。本发明通过借鉴视觉质量评价的研究思路,设计适用于音频信号的质量评价方法。
根据本发明的第一方面,提供一种全参考音频质量评价方法,包括:
将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,得到适用于音频质量评价的方法;
用降维得到的所述适用于音频质量评价的方法的一维质量描述子对待评价的音频信号的局部质量进行估计,得到局部音频质量估计结果;
对所述局部音频质量估计结果进行时域池化,得到音频的整体质量评价结果。
优选地,所述适用于图像信号的视觉质量评价方法可以从主流全参考图像质量评价算法中选取,可以为以下中任一种:
结构相似性指标(Structural Similarity,SSIM);
多尺度结构相似性指标(Multi-Scale Structural Similarity,MS-SSIM);
像素域视觉信息保真度算法(Visual Information Fidelity in Pixel domain,VIFP);
梯度幅值相似性算法(Gradient Magnitude Similarity Mean,GMSM);
梯度幅值相似性偏差算法(Gradient Magnitude Similarity Deviation,GMSD)。
优选地,所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于结构相似性指标SSIM,经过推广及降维的一维结构相似性指标SSIM1D表述为:
Figure BDA0002409365940000021
公式中各参数含义为:
x是参考音频信号;y是失真音频信号;μx是参考音频信号局部均值;μy是失真音频信号局部均值;σx是参考音频信号局部标准差;σy是失真音频信号局部标准差;σxy是参考音频信号及失真音频信号之间的局部协方差;
上述计算音频之间的SSIM1D表达式中x,y,SSIM1D(x,y),μx,μy,σx,σy,σxy均为一维音频信号,此外使用一维的局部时域窗来计算μx,μy,σx,σy,σxy,最后C1,C2是两个根据音频信号的动态范围而设定的常数,其值通常远远小于音频信号的动态范围。
优选地,所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于多尺度结构相似性指标MS-SSIM,经过推广及降维的一维多尺度结构相似性指标MS-SSIM1D表述为:
Figure BDA0002409365940000031
其中xs,ys分别为原始尺度及依次两倍下采样的参考音频和失真音频信号,s=1,…,5,ws为每个尺度的权重,SSIM1D计算两组一维音频信号之间的一维结构相似性指标。
优选地,所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于像素域视觉信息保真度算法VIFP,经过推广及降维的一维像素域视觉信息保真度算法VIFP1D表达式与像素域视觉信息保真度算法类似,不同在于:VIFP1D使用一维的局部时域窗来计算音频信号的局部均值、方差及协方差,并且将所有二维卷积操作降为一维卷积操作。
优选地,所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于梯度幅值相似性算法GMSM,经过推广及降维的一维梯度幅值相似性算法GMSM1D表述为:
Figure BDA0002409365940000032
其中t=1,…,T表示音频样本的索引,GMS1D表示一维梯度幅值相似性:
Figure BDA0002409365940000033
其中c是一个根据音频样本动态范围设定的常数,mx(t)及my(t)表示一维音频信号x及y的梯度幅值:
mx(t)=|x(t)*e|,
my(t)=|y(t)*e|,
其中e=[1 0 -1]是一个一维梯度算子;x(t)、y(t)分别是参考音频信号及失真音频信号。
优选地,所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于梯度幅值相似性偏差算法GMSD,经过推广及降维的一维梯度幅值相似性偏差算法GMSD1D表述为:
GMSD1D=std(GMS1D(t)),
其中std计算一维信号GMS1D(t)所有样本的标准差,GMS1D表示一维梯度幅值相似性:
Figure BDA0002409365940000041
其中c是一个根据音频样本动态范围设定的常数;
mx(t)及my(t)表示一维音频信号x及y的梯度幅值:
mx(t)=|x(t)*e|,
my(t)=|y(t)*e|,
其中e=[1 0 -1]是一个一维梯度算子,x(t)、y(t)分别是参考音频信号及失真音频信号。
优选地,用降维得到的所述适用于音频质量评价的方法的一维质量描述子对待评价的音频信号的局部质量进行估计,得到局部音频质量估计结果,包括:
降维得到的所述适用于音频质量评价的方法的一维质量描述子对参考音频信号及失真音频信号x,y的局部信号相似性进行估计,得到一条表述两组音频信号之间相似性的音频质量曲线。
优选地,对所述局部音频质量估计结果进行时域池化,包括:
对所述音频质量曲线进行池化,得到一个描述失真音频总体质量的单一数值。
根据本发明第二方面,提供一种全参考音频质量评价装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行所述的全参考音频质量评价方法。
与现有技术相比,本发明实施例具有以下至少一种有益效果:
本发明上述方法和装置,通过将适用于图像信号的视觉质量评价方法推广并降维至适用于音频信号的听觉质量评价的方法,能够得到大量的音频质量评价方法;
本发明上述方法和装置,进一步继承了相对应的视觉质量评价方法的诸多优点,具有可解释性佳等特点。
本发明上述方法和装置,相对于传统的音频质量评价方法更加简单有效,能够取得良好的音频质量评价效果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例的全参考音频质量评价方法流程框图;
图2为本发明一实施例的调查问卷样本示例图;
图3为本发明一实施例的问卷调查统计结果示例图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
图1为本发明一实施例的全参考音频质量评价方法流程框图。
参照图1所示,该实施例中的音视频多媒体主观质量评价方法,可以参照以下具体步骤进行:
第一步、选取一适用于图像信号的视觉质量评价方法
适用于图像信号的视觉质量评价方法可以从主流全参考图像质量评价算法中选取,可以是以下方法中任一种:
结构相似性指标(Structural Similarity,SSIM);
多尺度结构相似性指标(Multi-Scale Structural Similarity,MS-SSIM);
像素域视觉信息保真度算法(Visual Information Fidelity in Pixel domain,VIFP);
梯度幅值相似性算法(Gradient Magnitude Similarity Mean,GMSM);
梯度幅值相似性偏差算法(Gradient Magnitude Similarity Deviation,GMSD)。
当然,也可以是其他方法,以上仅是例举,并不是穷尽,所有适用于图像信号的视觉质量评价方法只要能按照本发明的流程实现音频质量评价的,都可以。
第二步、将选取的视觉质量评价方法中所有二维操作推广并降维至一维操作
选择好适用于图像信号的视觉质量评价方法后,需要将上述选取的视觉质量评价方法中所有适用于二维图像信号的操作推广并降维至适用于一维音频信号的操作。
以上述例举的结构相似性指标SSIM、多尺度结构相似性指标MS-SSIM、像素域视觉信息保真度算法VIFP、梯度幅值相似性算法GMSM、梯度幅值相似性偏差算法GMSD来分别进行说明。
在一实施例中,对于结构相似性指标SSIM,经过推广及降维的一维结构相似性指标SSIM1D可以表述为:
Figure BDA0002409365940000061
与计算图像之间的SSIM不同,在上述计算音频之间的SSIM1D表达式中x,y,SSIM1D(x,y),μx,μy,σx,σy,σxy均为一维音频而非二维图像信号,此外需要使用一维的局部时域窗,而非二维的局部图像窗来计算μx,μy,σx,σy,σxy,最后C1,C2是两个根据音频信号的动态范围而设定的常数,其值通常远远小于音频信号的动态范围。
在另一实施例中,对于多尺度结构相似性指标MS-SSIM,经过推广及降维的一维多尺度结构相似性指标MS-SSIM1D可以表述为:
Figure BDA0002409365940000062
其中xs,ys分别为原始尺度及依次两倍下采样的参考音频和失真音频信号,ws为每个尺度的权重,SSIM1D计算两组一维音频信号之间的一维结构相似性指标,s=1,…,5。
在另一实施例中,对于像素域视觉信息保真度算法VIFP,经过推广及降维的一维像素域视觉信息保真度算法(VIFP1D)表达式与像素域视觉信息保真度算法类似,不过需要使用一维的局部时域窗,而非二维的局部图像窗来计算音频的局部均值、方差、及协方差,并且需要将所有二维卷积操作降为一维卷积操作。
在另一实施例中,对于梯度幅值相似性算法GMSM,经过推广及降维的一维梯度幅值相似性算法(GMSM1D)可以表述为
Figure BDA0002409365940000063
其中t=1,…,T表示音频样本的索引,GMS1D表示一维梯度幅值相似性
Figure BDA0002409365940000064
其中c是一个根据音频样本动态范围设定的常数,mx(t)及my(t)表示一维音频信号x及y的梯度幅值
mx(t)=|x(t)*e|,
my(t)=|y(t)*e|,
其中e=[1 0 -1]是一个一维梯度算子。
在另一实施例中,对于梯度幅值相似性偏差算法GMSD,经过推广及降维的一维梯度幅值相似性偏差算法(GMSD1D)可以表述为GMSD1D=std(GMS1D(t)),
其中std计算一维信号GMS1D(t)所有样本的标准差,GMS1D表示一维梯度幅值相似性:
Figure BDA0002409365940000071
其中c是一个根据音频样本动态范围设定的常数,mx(t)及my(t)表示一维音频信号x及y的梯度幅值
mx(t)=|x(t)*e|,
my(t)=|y(t)*e|,
其中e=[1 0 -1]是一个一维梯度算子。
第三步、利用降维的一维质量描述子对音频局部质量进行估计
如图1所示,利用第二步中的一维结构相似性指标SSIM1D,一维多尺度结构相似性指标MS-SSIM1D,一维像素域视觉信息保真度算法VIFP1D,一维梯度幅值相似性算法GMSM1D,或者一维梯度幅值相似性偏差算法GMSD1D,对参考音频信号及失真音频信号x,y的局部信号相似性进行估计,从而得到一条表述两组音频信号之间相似性的音频质量曲线即局部音频质量曲线。
第四步、对局部音频质量进行时域池化得到音频的整体质量估计
估计好音频的局部质量之后,需要对第三步中所述的局部音频质量曲线进行池化,得到一个描述失真音频总体质量的单一数值,其中质量池化可以是平均池化、加权池化等各种池化方式,其中最简单直观的是平均池化
Figure BDA0002409365940000072
其中Q表示音频的整体质量估计,而Q1D(t)表示局部音频质量曲线。
以上实施例中各较佳特征,可以在任一实施例中单独使用,在互不冲突的前提下,也可以任一组合使用。另外,上述实施例中没有详细说明的部分均可以采用现有技术实现。
基于上述实施例中的方法,本发明在另一实施例中还提供一种全参考音频质量评价装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述实施例中的全参考音频质量评价方法。
可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic Random Access Memory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。
为了对上述一维结构相似性指标(SSIM1D),一维多尺度结构相似性指标(MS-SSIM1D),一维像素域视觉信息保真度算法(VIFP1D),一维梯度幅值相似性算法(GMSM1D),一维梯度幅值相似性偏差算法(GMSD1D)进行验证,可以在LIVE-SJTU Audio and VideoQuality Assessment(A/V-QA)Database数据库上进行测试。
LIVE-SJTU A/V-QA数据库是一个音视频质量评价数据库,包含从14段高质量参考音视频中利用24种音视频失真类型/程度生成的336段失真音视频。其中24种失真条件包含两种视频失真类型(压缩及压缩加缩放,都包含四级失真程度)及一种音频失真类型(压缩,包含三级失真程度)的任意组合。实验利用视频质量专家组(VQEG)在Video QualityExperts Group(VQEG)Phase I Full Reference-TV test中提出的Spearman rank ordercorrelation coefficients(SRCC)评价标准来衡量图像质量评价方法的性能好坏。
实验结果如下所示,为本发明一实施例的待向测试者说明的内容示例:
Figure BDA0002409365940000091
其中All表示包含所有视频;QP16、QP35、QP42、QP50分别表示所有包含QP16、QP35、QP42、QP50级别视频压缩的视频和任意失真级别音频的所有组合;QP16S、QP35S、QP42S、QP50S分别表示所有包含QP16、QP35、QP42、QP50级别视频压缩加缩放的视频和任意失真级别音频的所有组合。从图中可以看出,在限定视频的失真类型及失真程度时,SSIM1D、MS-SSIM1D、VIFP1D、GMSM1D、GMSD1D均可有效地估计音频质量对总体音视频质量的影响。
实验还将SSIM1D、MS-SSIM1D、VIFP1D、GMSM1D、GMSD1D和主流音频质量评价算法进行对比,其中对比算法包括:
PEAQ算法(《T.Thiede,W.C.Treurniet,R.Bitto,C.Schmidmer,T.Sporer,J.G.Beerends,and C.Colomes,“PEAQ-the ITU standard for objective measurementof perceived audio quality,”J.Audio Eng.Soc.,vol.48,no.1/2,pp.3–29,2000.》);
STOI算法(《C.H.Taal,R.C.Hendriks,R.Heusdens,and J.Jensen,“An algorithmfor intelligibility prediction of time–frequency weighted noisy speech,”IEEETrans.Audio,Speech,Language Process.,vol.19,no.7,pp.2125–2136,2011.》);
VISQOL算法(《A.Hines,E.Gillen,D.Kelly,J.Skoglund,A.Kokaram,andN.Harte,“ViSQOLAudio:An objective audio quality metric for low bitratecodecs,”J.Acoust.Soc.Am.,vol.137,no.6,pp.EL449–EL455,2015.》);
LLR算法(《Y.Hu and P.C.Loizou,“Evaluation of objective qualitymeasures for speech enhancement,”IEEE Trans.Audio,Speech,Language Process.,vol.16,no.1,pp.229–238,2007.》);
SNR算法(《Y.Hu and P.C.Loizou,“Evaluation of objective qualitymeasures for speech enhancement,”IEEE Trans.Audio,Speech,Language Process.,vol.16,no.1,pp.229–238,2007.》);
segSNR算法(《J.H.Hansen and B.L.Pellom,“An effective qualityevaluation protocol for speech enhancement algorithms,”inProc.Int.Conf.Spoken Lang.Process.,vol.7,1998,pp.2819–2822.》);
上述各算法性能对比如图2和图3所示,图2和图3中每个算法上方的柱形按照从左到右依次对应为QP16、QP35、QP42、QP50、QP16S、QP35S、QP42S、QP50S、ALL。从图中可以看出SSIM1D、MS-SSIM1D、VIFP1D、GMSM1D、GMSD1D可以和最有效的音频质量评价方法相比拟。
本发明上述实施例基于现有视觉质量评价方法,创造性地通过对现有的适用于二维视觉图像信号的视觉质量评价方法进行一系列有针对性的推广和降维操作,然后成功应用于一维听觉音频信号的质量评价,可有效地评价音频质量。
需要说明的是,本发明提供的所述方法中的步骤,可以利用所述装置中对应的单元等予以实现,本领域技术人员可以参照所述装置的技术方案实现所述方法的步骤流程,即,所述装置中的实施例可理解为实现所述方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的装置及其各个单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (10)

1.一种全参考音频质量评价方法,其特征在于,包括:
将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,得到适用于音频质量评价的方法;
用降维得到的所述适用于音频质量评价的方法的一维质量描述子对待评价的音频信号的局部质量进行估计,得到局部音频质量估计结果;
对所述局部音频质量估计结果进行时域池化,得到音频的整体质量评价结果。
2.根据权利要求1所述的全参考音频质量评价方法,其特征在于,所述适用于图像信号的视觉质量评价方法为以下中任一种:
结构相似性指标SSIM;
多尺度结构相似性指标MS-SSIM;
像素域视觉信息保真度算法VIFP;
梯度幅值相似性算法GMSM;
梯度幅值相似性偏差算法GMSD。
3.根据权利要求1所述的全参考音频质量评价方法,其特征在于,所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于结构相似性指标SSIM,经过推广及降维的一维结构相似性指标SSIM1D表述为:
Figure FDA0002409365930000011
公式中各参数含义为:
x是参考音频信号;y是失真音频信号;μx是参考音频信号局部均值;μy是失真音频信号局部均值;σx是参考音频信号局部标准差;σy是失真音频信号局部标准差;σxy是参考音频信号及失真音频信号之间的局部协方差;
上述计算音频之间的SSIM1D表达式中x,y,SSIM1D(x,y),μx,μy,σx,σy,σxy均为一维音频信号,此外使用一维的局部时域窗来计算μx,μy,σx,σy,σxy,最后C1,C2是两个根据音频信号的动态范围而设定的常数,其值小于音频信号的动态范围。
4.根据权利要求1所述的全参考音频质量评价方法,其特征在于,所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于多尺度结构相似性指标MS-SSIM,经过推广及降维的一维多尺度结构相似性指标MS-SSIM1D表述为:
Figure FDA0002409365930000021
其中xs,ys分别为原始尺度及依次两倍下采样的参考音频和失真音频信号,s=1,…,5,ws为每个尺度的权重,SSIM1D计算两组一维音频信号之间的一维结构相似性指标。
5.根据权利要求1所述的全参考音频质量评价方法,其特征在于,所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于像素域视觉信息保真度算法VIFP,经过推广及降维的一维像素域视觉信息保真度算法VIFP1D表达式与像素域视觉信息保真度算法类似,不同在于:VIFP1D使用一维的局部时域窗来计算音频信号的局部均值、方差及协方差,并且将所有二维卷积操作降为一维卷积操作。
6.根据权利要求1所述的全参考音频质量评价方法,其特征在于,所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于梯度幅值相似性算法GMSM,经过推广及降维的一维梯度幅值相似性算法GMSM1D表述为:
Figure FDA0002409365930000022
其中t=1,…,T表示音频样本的索引,GMS1D表示一维梯度幅值相似性:
Figure FDA0002409365930000023
其中c是一个根据音频样本动态范围设定的常数,mx(t)及my(t)表示一维音频信号x及y的梯度幅值:
mx(t)=|x(t)*e|,
my(t)=|y(t)*e|,
其中e=[1 0 -1]是一个一维梯度算子;x(t)、y(t)分别是参考音频信号及失真音频信号。
7.根据权利要求1所述的全参考音频质量评价方法,其特征在于,所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于梯度幅值相似性偏差算法GMSD,经过推广及降维的一维梯度幅值相似性偏差算法GMSD1D表述为:
GMSD1D=std(GMS1D(t)),
其中std计算一维信号GMS1D(t)所有样本的标准差,GMS1D表示一维梯度幅值相似性:
Figure FDA0002409365930000031
其中c是一个根据音频样本动态范围设定的常数;
mx(t)及my(t)表示一维音频信号x及y的梯度幅值:
mx(t)=|x(t)*e|,
my(t)=|y(t)*e|,
其中e=[1 0 -1]是一个一维梯度算子,x(t)、y(t)分别是参考音频信号及失真音频信号。
8.根据权利要求1所述的全参考音频质量评价方法,其特征在于,用降维得到的所述适用于音频质量评价的方法的一维质量描述子对待评价的音频信号的局部质量进行估计,得到局部音频质量估计结果,包括:
降维得到的所述适用于音频质量评价的方法的一维质量描述子对参考音频信号及失真音频信号x,y的局部信号相似性进行估计,得到一条表述两组音频信号之间相似性的音频质量曲线。
9.根据权利要求8所述的全参考音频质量评价方法,其特征在于,对所述局部音频质量估计结果进行时域池化,包括:
对所述音频质量曲线进行池化,得到一个描述失真音频总体质量的单一数值。
10.一种全参考音频质量评价装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-9任一所述的全参考音频质量评价方法。
CN202010171569.XA 2020-03-12 2020-03-12 一种全参考音频质量评价方法及装置 Active CN111508525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010171569.XA CN111508525B (zh) 2020-03-12 2020-03-12 一种全参考音频质量评价方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010171569.XA CN111508525B (zh) 2020-03-12 2020-03-12 一种全参考音频质量评价方法及装置

Publications (2)

Publication Number Publication Date
CN111508525A true CN111508525A (zh) 2020-08-07
CN111508525B CN111508525B (zh) 2023-05-23

Family

ID=71877788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010171569.XA Active CN111508525B (zh) 2020-03-12 2020-03-12 一种全参考音频质量评价方法及装置

Country Status (1)

Country Link
CN (1) CN111508525B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113489971A (zh) * 2021-07-19 2021-10-08 上海交通大学 一种全参考音视频客观质量评价方法、系统及终端

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2037449A1 (en) * 2007-09-11 2009-03-18 Deutsche Telekom AG Method and system for the integral and diagnostic assessment of listening speech quality
US20120033132A1 (en) * 2010-03-30 2012-02-09 Ching-Wei Chen Deriving visual rhythm from video signals
CN102496369A (zh) * 2011-12-23 2012-06-13 中国传媒大学 一种基于失真校正的压缩域音频质量客观评价方法
CN102664017A (zh) * 2012-04-25 2012-09-12 武汉大学 一种3d音频质量客观评价方法
CN104159104A (zh) * 2014-08-29 2014-11-19 电子科技大学 基于多级梯度相似的全参考视频质量评估方法
CN104485116A (zh) * 2014-12-04 2015-04-01 上海流利说信息技术有限公司 语音质量评价设备、方法和系统
US20150199959A1 (en) * 2012-05-10 2015-07-16 Google Inc. Objective speech quality metric
CA3031366A1 (en) * 2018-01-30 2019-07-30 Deluxe Entertainment Services Group Inc. Cognitive indexing of images in digital video content
CN110503981A (zh) * 2019-08-26 2019-11-26 苏州科达科技股份有限公司 无参考音频客观质量评价方法、装置及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2037449A1 (en) * 2007-09-11 2009-03-18 Deutsche Telekom AG Method and system for the integral and diagnostic assessment of listening speech quality
US20120033132A1 (en) * 2010-03-30 2012-02-09 Ching-Wei Chen Deriving visual rhythm from video signals
CN102496369A (zh) * 2011-12-23 2012-06-13 中国传媒大学 一种基于失真校正的压缩域音频质量客观评价方法
CN102664017A (zh) * 2012-04-25 2012-09-12 武汉大学 一种3d音频质量客观评价方法
US20150199959A1 (en) * 2012-05-10 2015-07-16 Google Inc. Objective speech quality metric
CN104159104A (zh) * 2014-08-29 2014-11-19 电子科技大学 基于多级梯度相似的全参考视频质量评估方法
CN104485116A (zh) * 2014-12-04 2015-04-01 上海流利说信息技术有限公司 语音质量评价设备、方法和系统
CA3031366A1 (en) * 2018-01-30 2019-07-30 Deluxe Entertainment Services Group Inc. Cognitive indexing of images in digital video content
CN110503981A (zh) * 2019-08-26 2019-11-26 苏州科达科技股份有限公司 无参考音频客观质量评价方法、装置及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
周毅: "广播电视传输和发射 专家评述" *
孙佳婷;: "低码率音频质量客观评价算法研究" *
徐晓娜;张雪;赵艳明;姜秀华;: "压缩域音频质量客观评价算法研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113489971A (zh) * 2021-07-19 2021-10-08 上海交通大学 一种全参考音视频客观质量评价方法、系统及终端
CN113489971B (zh) * 2021-07-19 2022-08-23 上海交通大学 一种全参考音视频客观质量评价方法、系统及终端

Also Published As

Publication number Publication date
CN111508525B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN112200750B (zh) 一种超声图像去噪模型建立方法及超声图像去噪方法
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN107564513B (zh) 语音识别方法及装置
CN111653288B (zh) 基于条件变分自编码器的目标人语音增强方法
US20210333237A1 (en) Distortion-free boundary extension method for online wavelet denoising
JP7106902B2 (ja) 学習プログラム、学習方法および学習装置
WO2022067874A1 (zh) 图像数据增强网络的训练方法及其训练装置、存储介质
CN113256508A (zh) 一种改进的小波变换与卷积神经网络图像去噪声的方法
CN111161314A (zh) 目标对象的位置区域确定方法、装置、电子设备及存储介质
US11995801B2 (en) Image processing method, system, device and storage medium
CN111479105A (zh) 一种视频及音频联合质量评价方法和装置
CN105338219A (zh) 视频图像去噪处理方法和装置
CN111508525A (zh) 一种全参考音频质量评价方法及装置
CN115082336A (zh) 一种基于机器学习的sar图像相干斑抑制方法
CN111508528B (zh) 基于自然音频统计特性的无参考音频质量评价方法和装置
CN116204786B (zh) 生成指定故障趋势数据的方法和装置
CN104616266B (zh) 一种基于广义自回归异方差模型的噪声方差估计方法
CN115859048A (zh) 一种局放信号的噪声处理方法及装置
CN114998107A (zh) 一种图像盲超分辨网络模型、方法、设备及存储介质
CN112489678B (zh) 一种基于信道特征的场景识别方法及装置
Sivaramakrishnan et al. Universal denoising of discrete-time continuous-amplitude signals
CN114626412A (zh) 用于无人值守传感器系统的多类别目标识别方法及系统
CN112927169A (zh) 一种基于小波变换和改进的加权核范数最小化的遥感影像去噪方法
CN106780387B (zh) 一种sar图像的去噪方法
CN111312276B (zh) 一种音频信号处理的方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant