CN111508528B - 基于自然音频统计特性的无参考音频质量评价方法和装置 - Google Patents

基于自然音频统计特性的无参考音频质量评价方法和装置 Download PDF

Info

Publication number
CN111508528B
CN111508528B CN202010171602.9A CN202010171602A CN111508528B CN 111508528 B CN111508528 B CN 111508528B CN 202010171602 A CN202010171602 A CN 202010171602A CN 111508528 B CN111508528 B CN 111508528B
Authority
CN
China
Prior art keywords
audio
natural
quality
audio signal
statistical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010171602.9A
Other languages
English (en)
Other versions
CN111508528A (zh
Inventor
闵雄阔
翟广涛
杨小康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010171602.9A priority Critical patent/CN111508528B/zh
Publication of CN111508528A publication Critical patent/CN111508528A/zh
Application granted granted Critical
Publication of CN111508528B publication Critical patent/CN111508528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提供了的一种基于自然音频统计特性的无参考音频质量评价方法,通过将相关的自然图像统计特性推广至自然音频统计,从而实现基于自然音频统计的无参考音频质量评价;本发明所提供的方法包括如下步骤:对输入音频信号进行正则化,利用自然音频统计特性进行建模,提取基于自然音频统计的音频质量特征,特征回归得到最终的音频质量估计。同时提供了一种基于自然音频统计特性的无参考音频质量评价装置。利用本发明提供的基于自然音频统计特性的无参考音频质量评价方法和装置,可有效地在原始音频信号未知的情况下估计待测的音频信号质量。

Description

基于自然音频统计特性的无参考音频质量评价方法和装置
技术领域
本发明涉及多媒体质量评价技术领域,具体地,涉及一种基于自然音频统计特性的无参考音频质量评价方法和装置。
背景技术
近年来,多媒体质量评价吸引了音频处理和图像处理等领域众多研究者的关注。根据待评价信号的类型,多媒体质量评价可以分为:图像/视频质量评价(image/videoquality assessment)和音频质量评价(audio quality assessment)。因其数量大、信息丰富等特点,图像和视频等视觉信号质量评价受到了更多研究者的关注,并提出了大量的视觉质量评价方法。与视觉质量评价相比,音频质量评价领域受到的关注更少,因此该领域尚缺乏更加深入和广泛的研究。该领域内有一些音频质量评价算法,但是目前仍然缺乏高效的音频质量评价算法,尤其缺乏简单易用且广泛适用于各种类型音频信号的音频质量评价算法。
现有的音频质量评价方法大多基于人类的听觉系统,通过引入复杂的心理声学模型和认知模型来构建音频质量评价模型。例如国际电信联盟在T.Thiede,W.C.Treurniet,R.Bitto,C.Schmidmer,T.Sporer,J.G.Beerends,and C.Colomes,“PEAQ-the ITUstandard for objective measurement of perceived audio quality,”J.AudioEng.Soc.,vol.48,no.1/2,pp.3–29,2000.》中提出的PEAQ(Perceptual Evaluation ofAudio Quality)模型,以心理声学模型为基础,通过信号变换、频带分组、掩蔽计算等方法来模拟人耳对声音产生响应到最终信息感知的过程,具体该方法算法主要有三大组成部分,包括心理声学模型、感知模型和神经网络。参考音频和失真音频分别经过心理声学模型处理后,各自的输出经由感知模型特征综合便可计算出一系列模型输出参数(ModelOutput Variables,MOV),然后由神经网络模块融合这些MOV得到一个描述音频质量的客观差异等级(Objective Difference Grade,ODG)。与PEAQ类似的这类方法很好地模拟了人类的听觉系统,在一定的条件下能够有效地估计音频质量,但是具有可推广性较差的缺点。
Alan Bovik等人在《A.K.Moorthy and A.C.Bovik,“Blind image qualityassessment:From natural scene statistics to perceptual quality,”IEEETrans.Image Process.,vol.20,no.12,pp.3350–3364,Dec.2011.》、《M.A.Saad,A.C.Bovik,and C.Charrier,“Blind image quality assessment:A natural scenestatistics approach in the DCT domain,”IEEE Trans.Image Process.,vol.21,no.8,pp.3339–3352,Aug.2012.》以及《A.Mittal,A.K.Moorthy,and A.C.Bovik,“No-referenceimage quality assessment in the spatial domain,”IEEE Trans.Image Process.,vol.21,no.12,pp.4695–4708,Dec.2012.》中大量利用了自然图像统计来评价图像质量。然而上述方法中的自然图像统计特性仅仅适用于图像及视频,所设计的方法也只能应用于图像和视频。
目前尚没有研究或方法将相关的自然图像统计特性推广并应用至音频,并设计相应的音频质量评价方法。
发明内容
针对现有技术中存在的上述不足,本发明的目的是提供一种基于自然音频统计特性的无参考音频质量评价方法,该方法通过将相关的自然图像统计特性推广至自然音频统计,从而实现基于自然音频统计的无参考音频质量评价。
本发明是通过以下技术方案实现的。
根据本发明的第一方面,提供一种基于自然音频统计特性的无参考音频质量评价方法,包括:
S1:对输入音频信号进行正则化处理,得到正则化后音频信号;
S2:利用自然音频统计特性,对S1中得到的正则化后音频信号进行建模,得到音频信号统计模型;
S3:提取基于S2中得到的自然音频统计模型的音频质量特征;
S4:对S3中得到的音频质量特征进行特征回归操作,得到最终的音频质量估计。
优选地,所述S1中,对输入音频信号进行正则化处理过程如下:
Figure BDA0002409369700000021
其中,a(t)为原始音频信号,
Figure BDA0002409369700000022
为正则化之后的音频信号,t为时序索引,c是根据音频信号动态范围设定的一个用于保持除式稳定的常数;μ(t)及σ(t)分别表示音频信号的局部均值及标准差:
Figure BDA0002409369700000023
Figure BDA0002409369700000031
其中,wτ,τ=-T,…,T表示一个一维的局部高斯窗。
优选地,所述S2中,利用自然音频统计特性对正则化后音频信号
Figure BDA0002409369700000032
进行自然音频统计模型建模过程如下:
采用广义高斯分布对正则化后音频信号
Figure BDA0002409369700000033
进行描述:
Figure BDA0002409369700000034
式中,f(x;α,σ2)表示正则化后音频信号所服从的概率密度函数;x表示正则化后音频信号
Figure BDA0002409369700000035
样本值;α表示一个参数,用于控制分布的形状;σ表示,σ2用于控制分布的方差;Γ(·)表示如下伽马函数:
Figure BDA0002409369700000036
β表示以下参数:
Figure BDA0002409369700000037
采用非对称广义高斯分布,对与正则化后音频信号相邻的两个样本
Figure BDA0002409369700000038
Figure BDA0002409369700000039
之间的乘积进行描述:
Figure BDA00024093697000000310
Figure BDA00024093697000000311
式中,
Figure BDA00024093697000000312
表示正则化后音频信号相邻样本乘积所服从的概率密度函数,v表示一个参数,用于控制分布的形状;σl表示一个参数,
Figure BDA00024093697000000313
用于控制左侧分布的方差;σr表示一个参数,
Figure BDA00024093697000000314
用于控制右侧分布的方差;βl及βr表示以下参数:
Figure BDA00024093697000000315
Figure BDA00024093697000000316
优选地,所述S3中,从自然音频统计模型中提取能够描述音频质量的分布参数;其中,广义高斯分布的形状参数α和方差参数σ2用于描述音频质量,非对称广义高斯分布的形状参数v、左方差参数
Figure BDA00024093697000000317
右方差参数
Figure BDA00024093697000000318
及其均值参数η均用于描述音频质量;
其中:
Figure BDA0002409369700000041
优选地,所述S3中,还包括:将输入音频信号下采样,然后提取多个尺度上的音频质量特征。
优选地,所述S4中,对S3中提取的音频质量特征进行特征回归,得到一个描述音频总体质量的单一质量分数。
优选地,对音频质量特征进行特征回归操作,采用机器学习特征融合方法。
优选地,对音频质量特征进行特征回归操作,采用神经网络的深度学习特征融合方法。
根据本发明的第二方面,提供一种基于自然音频统计特性的无参考音频质量评价装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述的基于自然音频统计特性的无参考音频质量评价方法。
与现有技术相比,本发明具有如下有益效果:
本发明提供的一种基于自然音频统计特性的无参考音频质量评价方法,该方法通过将相关的自然图像统计特性推广至自然音频统计,从而实现基于自然音频统计的无参考音频质量评价;该方法主要包含四大步骤:对输入音频信号进行正则化,利用自然音频统计特性进行建模,提取基于自然音频统计的音频质量特征,特征回归得到最终的音频质量估计;利用本发明提供的基于自然音频统计特性的无参考音频质量评价方法,可有效地在原始音频信号未知的情况下估计待测的音频信号质量。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为基于自然音频统计特性的无参考音频质量评价方法总体流程图;
图2为音频去关联前后相邻两个样本之间的散点图;其中,(a)为正则化之前音频信号相邻两个样本之间的散点图,(b)为正则化之后音频信号相邻两个样本之间的散点图;
图3为不同压缩程度的音频在正则化之后的直方图;其中,(a)为128kbps音频在正则化之后的直方图,(b)为32kbps音频在正则化之后的直方图,(c)为8kbps音频在正则化之后的直方图;
图4为不同压缩程度的音频在正则化之后相邻样本之间乘积的直方图;其中,(a)为128kbps音频在正则化之后相邻样本之间乘积的直方图,(b)为32kbps音频在正则化之后相邻样本之间乘积的直方图,(c)为8kbps音频在正则化之后相邻样本之间乘积的直方图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
本发明实施例提供了一种基于自然音频统计特性的无参考音频质量评价方法。
所述方法包括如下步骤:
第一步:对输入音频信号进行正则化处理,得到正则化后音频信号;
第二步:利用自然音频统计特性,对第一步中得到的正则化后音频信号进行建模,得到音频信号统计模型;
第三步:提取基于第二步中得到的自然音频统计模型的音频质量特征;
第四步:对第三步中得到的音频质量特征进行特征回归操作,得到最终的音频质量估计。
下面结合附图,对本发明实施例所提供的基于自然音频统计特性的无参考音频质量评价方法的详细步骤进一步详细阐述。
如图1所示,为本发明实施例所提供的基于自然音频统计特性的无参考音频质量评价方法总体流程图。所述方法包括如下步骤:
第一步、对输入音频信号进行正则化
用a(t)表述输入的原始音频信号,则对输入音频信号进行正则化过程如下:
Figure BDA0002409369700000051
其中
Figure BDA0002409369700000052
为正则化之后的音频信号,t为时序索引,c是根据音频信号动态范围设定的一个用于保持除式稳定的常数,μ(t)及σ(t)分别表示音频信号的局部均值及标准差
Figure BDA0002409369700000053
Figure BDA0002409369700000054
其中,wτ,τ=-T,…,T表示一个一维的局部高斯窗。
对输入音频信号进行正则化还能起到一个作用,即去相邻音频样本之间的关联。一般地,音频信号在正则化之前相邻样本之间存在极大的关联性。图2中(a)显示了正则化之前音频信号相邻两个样本之间的散点图,由该散点图可以看出相邻两个样本之间存在一定程度上的线性关系。图2中(b)显示了正则化之后音频信号相邻两个样本之间的散点图,由该散点图可以看出相邻两个样本之间存在的线性关系几乎被完全去除。
第二步、利用自然音频统计特性进行建模
未经处理的自然音频经过第一步所述的正则化之后,
Figure BDA0002409369700000061
一般服从高斯分布,而音频失真会迫使
Figure BDA0002409369700000062
的分布偏离该高斯分布,而自然音频的高斯分布和失真音频的分布都可以用广义高斯分布来进行描述:
Figure BDA0002409369700000063
其中:
Figure BDA0002409369700000064
其中Γ(·)表示如下伽马函数:
Figure BDA0002409369700000065
其中:α控制分布的形状,而σ2控制分布的方差。
正则化音频
Figure BDA0002409369700000066
的分布如图3所示,该图展示了原始音频经过128kbps,32kbps,或8kbps三种程度的音频压缩之后的正则化音频
Figure BDA0002409369700000067
的分布。从该图可以看出,所有正则化音频
Figure BDA0002409369700000068
都可以用广义高斯分布来拟合,此外随着压缩程度的不断加重,该分布越来越集中于0附近。
除了
Figure BDA0002409369700000069
的分布可以用广义高斯分布来描述外,正则化之后音频信号相邻的两个样本
Figure BDA00024093697000000610
Figure BDA00024093697000000611
之间的乘积还服从非对称广义高斯分布,即
Figure BDA00024093697000000612
还服从以下非对称广义高斯分布
Figure BDA00024093697000000613
其中
Figure BDA0002409369700000071
Figure BDA0002409369700000072
其中形状参数v控制分布的形状,
Figure BDA0002409369700000073
Figure BDA0002409369700000074
分别控制了左侧和右侧分布的方差。
正则化音频信号相邻的两个样本
Figure BDA0002409369700000075
Figure BDA0002409369700000076
之间的乘积p(t)的分布如图4所示,该图展示了原始音频经过128kbps,32kbps,或8kbps三种程度的音频压缩之后的正则化音频相邻样本乘积p(t)的分布。从该图可以看出,所有压缩程度音频的正则化音频相邻样本乘积p(t)都可以用非对称广义高斯分布来拟合,此外随着压缩程度的不断加重,该分布越来越集中于0附近。
第三步、提取基于自然音频统计的音频质量特征
从第二步中所述的
Figure BDA0002409369700000077
服从的广义高斯分布和p(t)服从的非对称广义高斯分布中提取出能描述音频质量的分布参数。具体地,广义高斯分布的形状参数α和方差参数σ2可以描述音频质量,非对称广义高斯分布的形状参数v、左方差参数
Figure BDA0002409369700000078
右方差参数
Figure BDA0002409369700000079
以及以下均值参数:
Figure BDA00024093697000000710
均可以描述音频质量。
除了在单一原始尺度上提取上述广义高斯分布和非对称广义高斯分布的音频质量特征外,还可以将音频下采样,然后提取多个尺度上的音频质量特征。
第四步、特征回归得到最终的音频质量估计
对第三步中所述的音频质量特征进行回归,得到一个描述音频总体质量的单一质量分数,其中音频质量特征回归可以是支持向量机、随机森林等简单的机器学习特征融合方法,也可以是神经网络等复杂的深度学习特征融合方法。在数据量不大的情况下,可以优先使用支持向量机进行特征融合。
在本发明另一实施例中,还提供一种基于自然音频统计特性的无参考音频质量评价装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述任一项实施例中的基于自然音频统计特性的无参考音频质量评价方法。
实施效果:
为了对本发明上述实施例所提供的基于自然音频统计特性的无参考音频质量评价方法进行验证,可以在LIVE-SJTU Audio and Video Quality Assessment(A/V-QA)Database数据库上对相关算法进行测试。LIVE-SJTU A/V-QA数据库是一个音视频质量评价数据库,包含从14段高质量参考音视频中利用24种音视频失真类型/程度生成的336段失真音视频。其中24种失真条件包含两种视频失真类型(压缩及压缩加缩放,都包含四级失真程度)及一种音频失真类型(压缩,包含三级失真程度)的任意组合。实验利用视频质量专家组(VQEG)在Video Quality Experts Group(VQEG)Phase I Full Reference-TV test中提出的Spearman rank order correlation coefficients(SRCC)评价标准来衡量音视频质量评价方法的性能好坏。
实验利用LIVE-SJTU A/V-QA数据库中的80%数据进行训练,剩余的20%数据进行测试。该训练测试可以随机进行1000次,而1000测试的SRCC中值即可作为算法的性能测试结果。实验结果如表1所示,其中All表示包含所有视频;QP16、QP35、QP42、QP50分别表示所有包含QP16、QP35、QP42、QP50级别视频压缩的视频和任意失真级别音频的所有组合;QP16S、QP35S、QP42S、QP50S分别表示所有包含QP16、QP35、QP42、QP50级别视频压缩加缩放的视频和任意失真级别音频的所有组合。从表中可以看出,在限定视频的失真类型及失真程度时,本发明提供的基于自然音频统计特性的无参考音频质量评价方法可有效地估计音频质量对总体音视频质量的影响。
表1
SRCC 1Scale 2Scales 3Scales 4Scales
QP16 0.8583 0.8333 0.8500 0.8667
QP35 0.8500 0.7833 0.7333 0.7000
QP42 0.7333 0.7000 0.7333 0.6833
QP50 0.7333 0.7500 0.6500 0.6084
QP16S 0.8167 0.8167 0.8167 0.8333
QP35S 0.7833 0.7667 0.6333 0.6833
QP42S 0.7667 0.6833 0.6167 0.6167
QP50S 0.7167 0.7500 0.7500 0.6167
本发明上述实施例所提供的一种基于自然音频统计特性的无参考音频质量评价方法,通过对输入音频信号进行正则化,利用自然音频统计特性进行建模,提取基于自然音频统计的音频质量特征,特征回归得到最终的音频质量估计四大步骤,可有效地评价音频质量。该方法通过将相关的自然图像统计特性推广至自然音频统计,从而实现基于自然音频统计的无参考音频质量评价。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (8)

1.一种基于自然音频统计特性的无参考音频质量评价方法,其特征在于,包括:
S1:对输入音频信号进行正则化处理,得到正则化后音频信号;
S2:利用自然音频统计特性,对S1中得到的正则化后音频信号进行建模,得到音频信号统计模型;
S3:提取基于S2中得到的自然音频统计模型的音频质量特征;
S4:对S3中得到的音频质量特征进行特征回归操作,得到最终的音频质量估计;
所述S2中,利用自然音频统计特性对正则化后音频信号
Figure FDA0004010336260000011
进行自然音频统计模型建模过程如下:
采用广义高斯分布对正则化后音频信号
Figure FDA0004010336260000012
进行描述:
Figure FDA0004010336260000013
式中,f(x;α,σ2)表示正则化后音频信号所服从的概率密度函数;x表示正则化后音频信号
Figure FDA0004010336260000014
样本值;α表示一个参数,用于控制分布的形状;σ2用于控制分布的方差;Γ(·)表示如下伽马函数:
Figure FDA0004010336260000015
β表示以下参数:
Figure FDA0004010336260000016
采用非对称广义高斯分布,对与正则化后音频信号相邻的两个样本
Figure FDA0004010336260000017
Figure FDA0004010336260000018
之间的乘积进行描述:
Figure FDA0004010336260000019
Figure FDA00040103362600000110
式中,
Figure FDA00040103362600000111
表示正则化后音频信号相邻样本乘积所服从的概率密度函数,v表示一个参数,用于控制分布的形状;σl表示一个参数,
Figure FDA00040103362600000112
用于控制左侧分布的方差;σr表示一个参数,
Figure FDA00040103362600000113
用于控制右侧分布的方差;βl及βr表示以下参数:
Figure FDA0004010336260000021
Figure FDA0004010336260000022
所述S3中,从自然音频统计模型中提取能够描述音频质量的分布参数;其中,广义高斯分布的形状参数α和方差参数σ2用于描述音频质量,非对称广义高斯分布的形状参数v、左方差参数
Figure FDA0004010336260000023
右方差参数
Figure FDA0004010336260000024
及其均值参数η均用于描述音频质量;
其中:
Figure FDA0004010336260000025
2.根据权利要求1所述的基于自然音频统计特性的无参考音频质量评价方法,其特征在于,所述S1中,对输入音频信号进行正则化处理过程如下:
Figure FDA0004010336260000026
其中,α(t)为原始音频信号,
Figure FDA0004010336260000027
为正则化之后的音频信号,t为时序索引,c是根据音频信号动态范围设定的一个用于保持除式稳定的常数;μ(t)及σ(t)分别表示音频信号的局部均值及标准差:
Figure FDA0004010336260000028
Figure FDA0004010336260000029
其中,wτ,τ=-T,...,T表示一个一维的局部高斯窗。
3.根据权利要求1所述的基于自然音频统计特性的无参考音频质量评价方法,其特征在于,所述S3中,还包括:将输入音频信号下采样,然后提取多个尺度上的音频质量特征。
4.根据权利要求1-3任一项所述的基于自然音频统计特性的无参考音频质量评价方法,其特征在于,所述S4中,对S3中提取的音频质量特征进行特征回归,得到一个描述音频总体质量的单一质量分数。
5.根据权利要求4所述的基于自然音频统计特性的无参考音频质量评价方法,其特征在于,对音频质量特征进行特征回归操作,采用机器学习特征融合方法。
6.根据权利要求5所述的基于自然音频统计特性的无参考音频质量评价方法,其特征在于,所述机器学习特征融合方法采用支持向量机进行特征融合。
7.根据权利要求4所述的基于自然音频统计特性的无参考音频质量评价方法,其特征在于,对音频质量特征进行特征回归操作,采用神经网络的深度学习特征融合方法。
8.一种基于自然音频统计特性的无参考音频质量评价装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-7任一所述的方法。
CN202010171602.9A 2020-03-12 2020-03-12 基于自然音频统计特性的无参考音频质量评价方法和装置 Active CN111508528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010171602.9A CN111508528B (zh) 2020-03-12 2020-03-12 基于自然音频统计特性的无参考音频质量评价方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010171602.9A CN111508528B (zh) 2020-03-12 2020-03-12 基于自然音频统计特性的无参考音频质量评价方法和装置

Publications (2)

Publication Number Publication Date
CN111508528A CN111508528A (zh) 2020-08-07
CN111508528B true CN111508528B (zh) 2023-02-28

Family

ID=71877648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010171602.9A Active CN111508528B (zh) 2020-03-12 2020-03-12 基于自然音频统计特性的无参考音频质量评价方法和装置

Country Status (1)

Country Link
CN (1) CN111508528B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968677B (zh) * 2020-08-21 2021-09-07 南京工程学院 面向免验配助听器的语音质量自评估方法
CN113689884B (zh) * 2021-09-17 2024-01-26 中国电子科技集团公司第五十八研究所 多通道语音信号评估系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1195795A (ja) * 1997-09-16 1999-04-09 Nippon Telegr & Teleph Corp <Ntt> 音声品質評価方法および記録媒体
CN103957216A (zh) * 2014-05-09 2014-07-30 武汉大学 基于音频信号特性分类的无参考音频质量评价方法和系统
WO2018028767A1 (en) * 2016-08-09 2018-02-15 Huawei Technologies Co., Ltd. Devices and methods for evaluating speech quality

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1195795A (ja) * 1997-09-16 1999-04-09 Nippon Telegr & Teleph Corp <Ntt> 音声品質評価方法および記録媒体
CN103957216A (zh) * 2014-05-09 2014-07-30 武汉大学 基于音频信号特性分类的无参考音频质量评价方法和系统
WO2018028767A1 (en) * 2016-08-09 2018-02-15 Huawei Technologies Co., Ltd. Devices and methods for evaluating speech quality
CN109496334A (zh) * 2016-08-09 2019-03-19 华为技术有限公司 用于评估语音质量的设备和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
No-reference quality assessment for image sharpness and noise;Lijuan Tang et al.;《2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA)》;20170119;全文 *

Also Published As

Publication number Publication date
CN111508528A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
US10984818B2 (en) Devices and methods for evaluating speech quality
CN103996192B (zh) 基于高质量自然图像统计量模型的无参考图像质量评价方法
CN102422323B (zh) 年龄估计装置、年龄估计方法
CN109890043B (zh) 一种基于生成式对抗网络的无线信号降噪方法
CN108765414B (zh) 基于小波分解和自然场景统计的无参考立体图像质量评价方法
CN111080579B (zh) 基于深度学习实现图像分割和分类的骨龄评估方法
CN111508528B (zh) 基于自然音频统计特性的无参考音频质量评价方法和装置
CN111709914B (zh) 一种基于hvs特性的无参考图像质量评价方法
CN112465069B (zh) 一种基于多尺度卷积核cnn的脑电情绪分类方法
CN111429402A (zh) 高级视觉感知特征与深度特征融合的图像质量评价方法
CN110910347B (zh) 一种基于图像分割的色调映射图像无参考质量评价方法
CN115899598A (zh) 一种融合听觉和视觉特征的供热管网状态监测方法及系统
CN111914617A (zh) 一种基于平衡栈式生成式对抗网络的人脸属性编辑方法
CN111479107B (zh) 基于自然音视频统计的无参考音视频联合质量评价方法
CN112151067B (zh) 一种基于卷积神经网络的数字音频篡改被动检测方法
CN113963193A (zh) 车身颜色分类模型生成的方法、装置以及存储介质
CN111105387A (zh) 基于统计特征视角合成质量预测方法、信息数据处理终端
CN115984919A (zh) 一种微表情识别方法及系统
CN113255789B (zh) 基于对抗网络和多被试脑电信号的视频质量评价方法
CN114897884A (zh) 基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法
CN111508525B (zh) 一种全参考音频质量评价方法及装置
CN114464159A (zh) 一种基于半流模型的声码器语音合成方法
CN111325720B (zh) 一种多视觉特征集成的无参考超分辨图像质量评价方法
Namgyal et al. What you hear is what you see: Audio quality metrics from image quality metrics
CN114140843B (zh) 一种基于样本自修复的跨数据库表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant