CN111508525B - 一种全参考音频质量评价方法及装置 - Google Patents
一种全参考音频质量评价方法及装置 Download PDFInfo
- Publication number
- CN111508525B CN111508525B CN202010171569.XA CN202010171569A CN111508525B CN 111508525 B CN111508525 B CN 111508525B CN 202010171569 A CN202010171569 A CN 202010171569A CN 111508525 B CN111508525 B CN 111508525B
- Authority
- CN
- China
- Prior art keywords
- dimensional
- audio
- quality
- local
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 58
- 230000005236 sound signal Effects 0.000 claims abstract description 78
- 230000000007 visual effect Effects 0.000 claims abstract description 48
- 230000009467 reduction Effects 0.000 claims abstract description 15
- 238000011176 pooling Methods 0.000 claims abstract description 13
- 230000015654 memory Effects 0.000 claims description 22
- 238000001303 quality assessment method Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
本发明提供了一种全参考音频质量评价方法及装置,方法包括:将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,得到适用于音频质量评价的方法;用降维得到的所述适用于音频质量评价的方法的一维质量描述子对待评价的音频信号的局部质量进行估计,得到局部音频质量估计结果;对所述局部音频质量估计结果进行时域池化,得到音频的整体质量评价结果。本发明提供的全参考音频质量评价方法及装置,可有效地评价音频质量。
Description
技术领域
本发明涉及多媒体质量评价技术领域,具体地,涉及一种全参考音频质量评价方法及装置。
背景技术
近年来,多媒体质量评价吸引了音频处理和图像处理等领域众多研究者的关注。根据待评价信号的类型,多媒体质量评价可以分为:图像/视频质量评价(image/videoquality assessment)和音频质量评价(audio quality assessment)。因其数量大、信息丰富等特点,图像和视频等视觉信号质量评价受到了更多研究者的关注,并提出了大量的视觉质量评价方法。
比如,Zhou Wang等人在论文《Z.Wang,A.C.Bovik,H.R.Sheikh,andE.P.Simoncelli,“Image quality assessment:from error visibility to structuralsimilarity,”IEEE Trans.Image Process.,vol.13,no.4,pp.600–612,2004.》提出了一种结构相似性指标(Structural Similarity,SSIM)。Zhou Wang等人在论文《Z.Wang,E.P.Simoncelli,and A.C.Bovik,“Multiscale structural similarity for imagequality assessment,”in Proc.IEEE Asilomar Conf.Sig.,Syst.,Comput.,2003,pp.1398–1402.》中提出了一种多尺度结构相似性指标(Multi-Scale StructuralSimilarity,MS-SSIM)。Hamid Rahim Sheikh等人在论文《H.R.Sheikh and A.C.Bovik,“Image information and visual quality,”IEEE Trans.Image Process.,vol.15,no.2,pp.430–444,2006.》中提出了一种像素域视觉信息保真度算法(Visual InformationFidelity in Pixel domain,VIFP)。Wufeng Xue等人在论文《W.Xue,L.Zhang,X.Mou,andA.C.Bovik,“Gradient magnitude similarity deviation:A highly efficientperceptual image quality index,”IEEE Trans.Image Process.,vol.23,no.2,pp.684–695,2014.》中提出了一种梯度幅值相似性算法(Gradient Magnitude Similarity Mean,GMSM)和一种梯度幅值相似性偏差算法(Gradient Magnitude Similarity Deviation,GMSD)。上述方法都为图像质量评价领域的主流方法,并可以有效地估计图像或视频的视觉质量。
与视觉质量评价相比,音频质量评价领域受到的关注更少,因此该领域尚缺乏更加深入和广泛的研究。该领域内有一些音频质量评价方法,但是目前仍然缺乏高效的音频质量评价方法,尤其缺乏简单易用且广泛适用于各种类型音频信号的音频质量评价方法。在研究界,音频质量评价领域和图像质量评价领域长期处于孤立状态,而缺乏广泛的借鉴和交流。
发明内容
针对上述现有技术中存在的上述不足,本发明的目的是提供一种全参考音频质量评价方法及装置。
从本质上来说,图像为二维信号,而音频为一维信号,那么通过将主流的适用于二维图像信号的视觉质量评价算法推广至一维音频信号是否可行值得深入地研究。本发明通过借鉴视觉质量评价的研究思路,设计适用于音频信号的质量评价方法。
根据本发明的第一方面,提供一种全参考音频质量评价方法,包括:
将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,得到适用于音频质量评价的方法;
用降维得到的所述适用于音频质量评价的方法的一维质量描述子对待评价的音频信号的局部质量进行估计,得到局部音频质量估计结果;
对所述局部音频质量估计结果进行时域池化,得到音频的整体质量评价结果。
优选地,所述适用于图像信号的视觉质量评价方法可以从主流全参考图像质量评价算法中选取,可以为以下中任一种:
结构相似性指标(Structural Similarity,SSIM);
多尺度结构相似性指标(Multi-Scale Structural Similarity,MS-SSIM);
像素域视觉信息保真度算法(Visual Information Fidelity in Pixel domain,VIFP);
梯度幅值相似性算法(Gradient Magnitude Similarity Mean,GMSM);
梯度幅值相似性偏差算法(Gradient Magnitude Similarity Deviation,GMSD)。
优选地,所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于结构相似性指标SSIM,经过推广及降维的一维结构相似性指标SSIM1D表述为:
公式中各参数含义为:
x是参考音频信号;y是失真音频信号;μx是参考音频信号局部均值;μy是失真音频信号局部均值;σx是参考音频信号局部标准差;σy是失真音频信号局部标准差;σxy是参考音频信号及失真音频信号之间的局部协方差;
上述计算音频之间的SSIM1D表达式中x,y,SSIM1D(x,y),μx,μy,σx,σy,σxy均为一维音频信号,此外使用一维的局部时域窗来计算μx,μy,σx,σy,σxy,最后C1,C2是两个根据音频信号的动态范围而设定的常数,其值通常远远小于音频信号的动态范围。
优选地,所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于多尺度结构相似性指标MS-SSIM,经过推广及降维的一维多尺度结构相似性指标MS-SSIM1D表述为:
其中xs,ys分别为原始尺度及依次两倍下采样的参考音频和失真音频信号,s=1,…,5,ws为每个尺度的权重,SSIM1D计算两组一维音频信号之间的一维结构相似性指标。
优选地,所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于像素域视觉信息保真度算法VIFP,经过推广及降维的一维像素域视觉信息保真度算法VIFP1D表达式与像素域视觉信息保真度算法类似,不同在于:VIFP1D使用一维的局部时域窗来计算音频信号的局部均值、方差及协方差,并且将所有二维卷积操作降为一维卷积操作。
优选地,所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于梯度幅值相似性算法GMSM,经过推广及降维的一维梯度幅值相似性算法GMSM1D表述为:
其中t=1,…,T表示音频样本的索引,GMS1D表示一维梯度幅值相似性:
其中c是一个根据音频样本动态范围设定的常数,mx(t)及my(t)表示一维音频信号x及y的梯度幅值:
mx(t)=|x(t)*e|,
my(t)=|y(t)*e|,
其中e=[1 0 -1]是一个一维梯度算子;x(t)、y(t)分别是参考音频信号及失真音频信号。
优选地,所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于梯度幅值相似性偏差算法GMSD,经过推广及降维的一维梯度幅值相似性偏差算法GMSD1D表述为:
GMSD1D=std(GMS1D(t)),
其中std计算一维信号GMS1D(t)所有样本的标准差,GMS1D表示一维梯度幅值相似性:
其中c是一个根据音频样本动态范围设定的常数;
mx(t)及my(t)表示一维音频信号x及y的梯度幅值:
mx(t)=|x(t)*e|,
my(t)=|y(t)*e|,
其中e=[1 0 -1]是一个一维梯度算子,x(t)、y(t)分别是参考音频信号及失真音频信号。
优选地,用降维得到的所述适用于音频质量评价的方法的一维质量描述子对待评价的音频信号的局部质量进行估计,得到局部音频质量估计结果,包括:
降维得到的所述适用于音频质量评价的方法的一维质量描述子对参考音频信号及失真音频信号x,y的局部信号相似性进行估计,得到一条表述两组音频信号之间相似性的音频质量曲线。
优选地,对所述局部音频质量估计结果进行时域池化,包括:
对所述音频质量曲线进行池化,得到一个描述失真音频总体质量的单一数值。
根据本发明第二方面,提供一种全参考音频质量评价装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行所述的全参考音频质量评价方法。
与现有技术相比,本发明实施例具有以下至少一种有益效果:
本发明上述方法和装置,通过将适用于图像信号的视觉质量评价方法推广并降维至适用于音频信号的听觉质量评价的方法,能够得到大量的音频质量评价方法;
本发明上述方法和装置,进一步继承了相对应的视觉质量评价方法的诸多优点,具有可解释性佳等特点。
本发明上述方法和装置,相对于传统的音频质量评价方法更加简单有效,能够取得良好的音频质量评价效果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例的全参考音频质量评价方法流程框图;
图2为本发明一实施例的调查问卷样本示例图;
图3为本发明一实施例的问卷调查统计结果示例图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
图1为本发明一实施例的全参考音频质量评价方法流程框图。
参照图1所示,该实施例中的音视频多媒体主观质量评价方法,可以参照以下具体步骤进行:
第一步、选取一适用于图像信号的视觉质量评价方法
适用于图像信号的视觉质量评价方法可以从主流全参考图像质量评价算法中选取,可以是以下方法中任一种:
结构相似性指标(Structural Similarity,SSIM);
多尺度结构相似性指标(Multi-Scale Structural Similarity,MS-SSIM);
像素域视觉信息保真度算法(Visual Information Fidelity in Pixel domain,VIFP);
梯度幅值相似性算法(Gradient Magnitude Similarity Mean,GMSM);
梯度幅值相似性偏差算法(Gradient Magnitude Similarity Deviation,GMSD)。
当然,也可以是其他方法,以上仅是例举,并不是穷尽,所有适用于图像信号的视觉质量评价方法只要能按照本发明的流程实现音频质量评价的,都可以。
第二步、将选取的视觉质量评价方法中所有二维操作推广并降维至一维操作
选择好适用于图像信号的视觉质量评价方法后,需要将上述选取的视觉质量评价方法中所有适用于二维图像信号的操作推广并降维至适用于一维音频信号的操作。
以上述例举的结构相似性指标SSIM、多尺度结构相似性指标MS-SSIM、像素域视觉信息保真度算法VIFP、梯度幅值相似性算法GMSM、梯度幅值相似性偏差算法GMSD来分别进行说明。
在一实施例中,对于结构相似性指标SSIM,经过推广及降维的一维结构相似性指标SSIM1D可以表述为:
与计算图像之间的SSIM不同,在上述计算音频之间的SSIM1D表达式中x,y,SSIM1D(x,y),μx,μy,σx,σy,σxy均为一维音频而非二维图像信号,此外需要使用一维的局部时域窗,而非二维的局部图像窗来计算μx,μy,σx,σy,σxy,最后C1,C2是两个根据音频信号的动态范围而设定的常数,其值通常远远小于音频信号的动态范围。
在另一实施例中,对于多尺度结构相似性指标MS-SSIM,经过推广及降维的一维多尺度结构相似性指标MS-SSIM1D可以表述为:
其中xs,ys分别为原始尺度及依次两倍下采样的参考音频和失真音频信号,ws为每个尺度的权重,SSIM1D计算两组一维音频信号之间的一维结构相似性指标,s=1,…,5。
在另一实施例中,对于像素域视觉信息保真度算法VIFP,经过推广及降维的一维像素域视觉信息保真度算法(VIFP1D)表达式与像素域视觉信息保真度算法类似,不过需要使用一维的局部时域窗,而非二维的局部图像窗来计算音频的局部均值、方差、及协方差,并且需要将所有二维卷积操作降为一维卷积操作。
在另一实施例中,对于梯度幅值相似性算法GMSM,经过推广及降维的一维梯度幅值相似性算法(GMSM1D)可以表述为
其中t=1,…,T表示音频样本的索引,GMS1D表示一维梯度幅值相似性
其中c是一个根据音频样本动态范围设定的常数,mx(t)及my(t)表示一维音频信号x及y的梯度幅值
mx(t)=|x(t)*e|,
my(t)=|y(t)*e|,
其中e=[1 0 -1]是一个一维梯度算子。
在另一实施例中,对于梯度幅值相似性偏差算法GMSD,经过推广及降维的一维梯度幅值相似性偏差算法(GMSD1D)可以表述为GMSD1D=std(GMS1D(t)),
其中std计算一维信号GMS1D(t)所有样本的标准差,GMS1D表示一维梯度幅值相似性:
其中c是一个根据音频样本动态范围设定的常数,mx(t)及my(t)表示一维音频信号x及y的梯度幅值
mx(t)=|x(t)*e|,
my(t)=|y(t)*e|,
其中e=[1 0 -1]是一个一维梯度算子。
第三步、利用降维的一维质量描述子对音频局部质量进行估计
如图1所示,利用第二步中的一维结构相似性指标SSIM1D,一维多尺度结构相似性指标MS-SSIM1D,一维像素域视觉信息保真度算法VIFP1D,一维梯度幅值相似性算法GMSM1D,或者一维梯度幅值相似性偏差算法GMSD1D,对参考音频信号及失真音频信号x,y的局部信号相似性进行估计,从而得到一条表述两组音频信号之间相似性的音频质量曲线即局部音频质量曲线。
第四步、对局部音频质量进行时域池化得到音频的整体质量估计
估计好音频的局部质量之后,需要对第三步中所述的局部音频质量曲线进行池化,得到一个描述失真音频总体质量的单一数值,其中质量池化可以是平均池化、加权池化等各种池化方式,其中最简单直观的是平均池化
其中Q表示音频的整体质量估计,而Q1D(t)表示局部音频质量曲线。
以上实施例中各较佳特征,可以在任一实施例中单独使用,在互不冲突的前提下,也可以任一组合使用。另外,上述实施例中没有详细说明的部分均可以采用现有技术实现。
基于上述实施例中的方法,本发明在另一实施例中还提供一种全参考音频质量评价装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述实施例中的全参考音频质量评价方法。
可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic Random Access Memory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。
为了对上述一维结构相似性指标(SSIM1D),一维多尺度结构相似性指标(MS-SSIM1D),一维像素域视觉信息保真度算法(VIFP1D),一维梯度幅值相似性算法(GMSM1D),一维梯度幅值相似性偏差算法(GMSD1D)进行验证,可以在LIVE-SJTU Audio and VideoQuality Assessment(A/V-QA)Database数据库上进行测试。
LIVE-SJTU A/V-QA数据库是一个音视频质量评价数据库,包含从14段高质量参考音视频中利用24种音视频失真类型/程度生成的336段失真音视频。其中24种失真条件包含两种视频失真类型(压缩及压缩加缩放,都包含四级失真程度)及一种音频失真类型(压缩,包含三级失真程度)的任意组合。实验利用视频质量专家组(VQEG)在Video QualityExperts Group(VQEG)Phase I Full Reference-TV test中提出的Spearman rank ordercorrelation coefficients(SRCC)评价标准来衡量图像质量评价方法的性能好坏。
实验结果如下所示,为本发明一实施例的待向测试者说明的内容示例:
其中All表示包含所有视频;QP16、QP35、QP42、QP50分别表示所有包含QP16、QP35、QP42、QP50级别视频压缩的视频和任意失真级别音频的所有组合;QP16S、QP35S、QP42S、QP50S分别表示所有包含QP16、QP35、QP42、QP50级别视频压缩加缩放的视频和任意失真级别音频的所有组合。从图中可以看出,在限定视频的失真类型及失真程度时,SSIM1D、MS-SSIM1D、VIFP1D、GMSM1D、GMSD1D均可有效地估计音频质量对总体音视频质量的影响。
实验还将SSIM1D、MS-SSIM1D、VIFP1D、GMSM1D、GMSD1D和主流音频质量评价算法进行对比,其中对比算法包括:
PEAQ算法(《T.Thiede,W.C.Treurniet,R.Bitto,C.Schmidmer,T.Sporer,J.G.Beerends,and C.Colomes,“PEAQ-the ITU standard for objective measurementof perceived audio quality,”J.Audio Eng.Soc.,vol.48,no.1/2,pp.3–29,2000.》);
STOI算法(《C.H.Taal,R.C.Hendriks,R.Heusdens,and J.Jensen,“An algorithmfor intelligibility prediction of time–frequency weighted noisy speech,”IEEETrans.Audio,Speech,Language Process.,vol.19,no.7,pp.2125–2136,2011.》);
VISQOL算法(《A.Hines,E.Gillen,D.Kelly,J.Skoglund,A.Kokaram,andN.Harte,“ViSQOLAudio:An objective audio quality metric for low bitratecodecs,”J.Acoust.Soc.Am.,vol.137,no.6,pp.EL449–EL455,2015.》);
LLR算法(《Y.Hu and P.C.Loizou,“Evaluation of objective qualitymeasures for speech enhancement,”IEEE Trans.Audio,Speech,Language Process.,vol.16,no.1,pp.229–238,2007.》);
SNR算法(《Y.Hu and P.C.Loizou,“Evaluation of objective qualitymeasures for speech enhancement,”IEEE Trans.Audio,Speech,Language Process.,vol.16,no.1,pp.229–238,2007.》);
segSNR算法(《J.H.Hansen and B.L.Pellom,“An effective qualityevaluation protocol for speech enhancement algorithms,”inProc.Int.Conf.Spoken Lang.Process.,vol.7,1998,pp.2819–2822.》);
上述各算法性能对比如图2和图3所示,图2和图3中每个算法上方的柱形按照从左到右依次对应为QP16、QP35、QP42、QP50、QP16S、QP35S、QP42S、QP50S、ALL。从图中可以看出SSIM1D、MS-SSIM1D、VIFP1D、GMSM1D、GMSD1D可以和最有效的音频质量评价方法相比拟。
本发明上述实施例基于现有视觉质量评价方法,创造性地通过对现有的适用于二维视觉图像信号的视觉质量评价方法进行一系列有针对性的推广和降维操作,然后成功应用于一维听觉音频信号的质量评价,可有效地评价音频质量。
需要说明的是,本发明提供的所述方法中的步骤,可以利用所述装置中对应的单元等予以实现,本领域技术人员可以参照所述装置的技术方案实现所述方法的步骤流程,即,所述装置中的实施例可理解为实现所述方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的装置及其各个单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (4)
1.一种全参考音频质量评价方法,其特征在于,包括:
将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,得到适用于音频质量评价的方法;
用降维得到的所述适用于音频质量评价的方法的一维质量描述子对待评价的音频信号的局部质量进行估计,得到局部音频质量估计结果;
对所述局部音频质量估计结果进行时域池化,得到音频的整体质量评价结果;
所述适用于图像信号的视觉质量评价方法为以下中任一种:
结构相似性指标SSIM;
多尺度结构相似性指标MS-SSIM;
像素域视觉信息保真度算法VIFP;
梯度幅值相似性算法GMSM;
梯度幅值相似性偏差算法GMSD;
所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于结构相似性指标SSIM,经过推广及降维的一维结构相似性指标SSIM1D表述为:
公式中各参数含义为:
x是参考音频信号;y是失真音频信号;μx是参考音频信号局部均值;μy是失真音频信号局部均值;σx是参考音频信号局部标准差;σy是失真音频信号局部标准差;σxy是参考音频信号及失真音频信号之间的局部协方差;
上述计算音频之间的SSIM1D表达式中x,y,SSIM1D(x,y),μx,μy,σx,σy,σxy均为一维音频信号,此外使用一维的局部时域窗来计算μx,μy,σx,σy,σxy,最后C1,C2是两个根据音频信号的动态范围而设定的常数,其值小于音频信号的动态范围;
所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于多尺度结构相似性指标MS-SSIM,经过推广及降维的一维多尺度结构相似性指标MS-SSIM1D表述为:
其中xs,ys分别为原始尺度及依次两倍下采样的参考音频和失真音频信号,s=1,…,5,ws为每个尺度的权重,SSIM1D计算两组一维音频信号之间的一维结构相似性指标;
所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于像素域视觉信息保真度算法VIFP,经过推广及降维的一维像素域视觉信息保真度算法VIFP1D表达式与像素域视觉信息保真度算法类似,不同在于:VIFP1D使用一维的局部时域窗来计算音频信号的局部均值、方差及协方差,并且将所有二维卷积操作降为一维卷积操作;
所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于梯度幅值相似性算法GMSM,经过推广及降维的一维梯度幅值相似性算法GMSM1D表述为:
其中t=1,…,T表示音频样本的索引,GMS1D表示一维梯度幅值相似性:
其中c是一个根据音频样本动态范围设定的常数,mx(t)及my(t)表示一维音频信号x及y的梯度幅值:
mx(t)=|x(t)*e|,
my(t)=|y(t)*e|,
其中e=[1 0 -1]是一个一维梯度算子;x(t)、y(t)分别是参考音频信号及失真音频信号;
所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,其中:
对于梯度幅值相似性偏差算法GMSD,经过推广及降维的一维梯度幅值相似性偏差算法GMSD1D表述为:
GMSD1D=std(GMS1D(t)),
其中std计算一维信号GMS1D(t)所有样本的标准差,GMS1D表示一维梯度幅值相似性:
其中c是一个根据音频样本动态范围设定的常数;
mx(t)及my(t)表示一维音频信号x及y的梯度幅值:
mx(t)=|x(t)*e|,
my(t)=|y(t)*e|,
其中e=[1 0 -1]是一个一维梯度算子,x(t)、y(t)分别是参考音频信号及失真音频信号。
2.根据权利要求1所述的全参考音频质量评价方法,其特征在于,用降维得到的所述适用于音频质量评价的方法的一维质量描述子对待评价的音频信号的局部质量进行估计,得到局部音频质量估计结果,包括:
降维得到的所述适用于音频质量评价的方法的一维质量描述子对参考音频信号及失真音频信号x,y的局部信号相似性进行估计,得到一条表述两组音频信号之间相似性的音频质量曲线。
3.根据权利要求2所述的全参考音频质量评价方法,其特征在于,对所述局部音频质量估计结果进行时域池化,包括:
对所述音频质量曲线进行池化,得到一个描述失真音频总体质量的单一数值。
4.一种全参考音频质量评价装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-3任一所述的全参考音频质量评价方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010171569.XA CN111508525B (zh) | 2020-03-12 | 2020-03-12 | 一种全参考音频质量评价方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010171569.XA CN111508525B (zh) | 2020-03-12 | 2020-03-12 | 一种全参考音频质量评价方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111508525A CN111508525A (zh) | 2020-08-07 |
CN111508525B true CN111508525B (zh) | 2023-05-23 |
Family
ID=71877788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010171569.XA Active CN111508525B (zh) | 2020-03-12 | 2020-03-12 | 一种全参考音频质量评价方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111508525B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113489971B (zh) * | 2021-07-19 | 2022-08-23 | 上海交通大学 | 一种全参考音视频客观质量评价方法、系统及终端 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2037449A1 (en) * | 2007-09-11 | 2009-03-18 | Deutsche Telekom AG | Method and system for the integral and diagnostic assessment of listening speech quality |
CN102496369A (zh) * | 2011-12-23 | 2012-06-13 | 中国传媒大学 | 一种基于失真校正的压缩域音频质量客观评价方法 |
CN102664017A (zh) * | 2012-04-25 | 2012-09-12 | 武汉大学 | 一种3d音频质量客观评价方法 |
CN104159104A (zh) * | 2014-08-29 | 2014-11-19 | 电子科技大学 | 基于多级梯度相似的全参考视频质量评估方法 |
CN104485116A (zh) * | 2014-12-04 | 2015-04-01 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
CA3031366A1 (en) * | 2018-01-30 | 2019-07-30 | Deluxe Entertainment Services Group Inc. | Cognitive indexing of images in digital video content |
CN110503981A (zh) * | 2019-08-26 | 2019-11-26 | 苏州科达科技股份有限公司 | 无参考音频客观质量评价方法、装置及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8654250B2 (en) * | 2010-03-30 | 2014-02-18 | Sony Corporation | Deriving visual rhythm from video signals |
US9524733B2 (en) * | 2012-05-10 | 2016-12-20 | Google Inc. | Objective speech quality metric |
-
2020
- 2020-03-12 CN CN202010171569.XA patent/CN111508525B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2037449A1 (en) * | 2007-09-11 | 2009-03-18 | Deutsche Telekom AG | Method and system for the integral and diagnostic assessment of listening speech quality |
CN102496369A (zh) * | 2011-12-23 | 2012-06-13 | 中国传媒大学 | 一种基于失真校正的压缩域音频质量客观评价方法 |
CN102664017A (zh) * | 2012-04-25 | 2012-09-12 | 武汉大学 | 一种3d音频质量客观评价方法 |
CN104159104A (zh) * | 2014-08-29 | 2014-11-19 | 电子科技大学 | 基于多级梯度相似的全参考视频质量评估方法 |
CN104485116A (zh) * | 2014-12-04 | 2015-04-01 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
CA3031366A1 (en) * | 2018-01-30 | 2019-07-30 | Deluxe Entertainment Services Group Inc. | Cognitive indexing of images in digital video content |
CN110503981A (zh) * | 2019-08-26 | 2019-11-26 | 苏州科达科技股份有限公司 | 无参考音频客观质量评价方法、装置及存储介质 |
Non-Patent Citations (3)
Title |
---|
周毅.广播电视传输和发射 专家评述.现代电视技术.(第S1期),全文. * |
孙佳婷 ; .低码率音频质量客观评价算法研究.黑龙江大学工程学报.(第02期),全文. * |
徐晓娜 ; 张雪 ; 赵艳明 ; 姜秀华 ; .压缩域音频质量客观评价算法研究.电声技术.(第04期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111508525A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107564513B (zh) | 语音识别方法及装置 | |
CN110459205B (zh) | 语音识别方法及装置、计算机可存储介质 | |
DE102019110272A1 (de) | Neuronalnetzwerkbasierte zeit-frequenzmaskenschätzung und strahlformung zur sprachvorverarbeitung | |
CN110634499A (zh) | 用深特征损失训练的用于语音去噪的神经网络 | |
CN110619296B (zh) | 一种基于奇异分解的信号降噪方法 | |
Zhang et al. | Joint image denoising using adaptive principal component analysis and self-similarity | |
CN102945670B (zh) | 一种用于语音识别系统的多环境特征补偿方法 | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
CN110164465B (zh) | 一种基于深层循环神经网络的语音增强方法及装置 | |
DE102019109148A1 (de) | Wake-on-voice-schlüsselphrasensegmentierung | |
CN111479105A (zh) | 一种视频及音频联合质量评价方法和装置 | |
CN101799916A (zh) | 基于贝叶斯估计的生物芯片图像小波去噪方法 | |
CN111508525B (zh) | 一种全参考音频质量评价方法及装置 | |
CN116719085B (zh) | 一种地震记录高分辨率处理方法、装置、设备及存储介质 | |
CN111508528B (zh) | 基于自然音频统计特性的无参考音频质量评价方法和装置 | |
CN116884435A (zh) | 一种基于音频提示学习的声音事件检测方法及装置 | |
CN106971392A (zh) | 一种结合dt‑cwt和mrf的遥感图像变化检测方法与装置 | |
CN107919136B (zh) | 一种基于高斯混合模型的数字语音采样频率估计方法 | |
CN114239757B (zh) | 一种电磁时间序列数据的去噪方法及系统 | |
CN112489678B (zh) | 一种基于信道特征的场景识别方法及装置 | |
CN108573698B (zh) | 一种基于性别融合信息的语音降噪方法 | |
CN115859048A (zh) | 一种局放信号的噪声处理方法及装置 | |
CN104616266A (zh) | 一种基于广义自回归异方差模型的噪声方差估计方法 | |
CN112927169A (zh) | 一种基于小波变换和改进的加权核范数最小化的遥感影像去噪方法 | |
CN111312276B (zh) | 一种音频信号处理的方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |