CN111508528B - 基于自然音频统计特性的无参考音频质量评价方法和装置 - Google Patents
基于自然音频统计特性的无参考音频质量评价方法和装置 Download PDFInfo
- Publication number
- CN111508528B CN111508528B CN202010171602.9A CN202010171602A CN111508528B CN 111508528 B CN111508528 B CN 111508528B CN 202010171602 A CN202010171602 A CN 202010171602A CN 111508528 B CN111508528 B CN 111508528B
- Authority
- CN
- China
- Prior art keywords
- audio
- natural
- quality
- audio signal
- statistical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 38
- 230000005236 sound signal Effects 0.000 claims abstract description 53
- 238000009826 distribution Methods 0.000 claims description 46
- 230000008569 process Effects 0.000 claims description 10
- 238000001303 quality assessment method Methods 0.000 claims description 10
- 238000013179 statistical model Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000007500 overflow downdraw method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 2
- 230000004927 fusion Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000006835 compression Effects 0.000 description 10
- 238000007906 compression Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 244000046095 Psophocarpus tetragonolobus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 244000149284 moort Species 0.000 description 1
- 235000000079 moort Nutrition 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Pure & Applied Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明提供了的一种基于自然音频统计特性的无参考音频质量评价方法,通过将相关的自然图像统计特性推广至自然音频统计,从而实现基于自然音频统计的无参考音频质量评价;本发明所提供的方法包括如下步骤:对输入音频信号进行正则化,利用自然音频统计特性进行建模,提取基于自然音频统计的音频质量特征,特征回归得到最终的音频质量估计。同时提供了一种基于自然音频统计特性的无参考音频质量评价装置。利用本发明提供的基于自然音频统计特性的无参考音频质量评价方法和装置,可有效地在原始音频信号未知的情况下估计待测的音频信号质量。
Description
技术领域
本发明涉及多媒体质量评价技术领域,具体地,涉及一种基于自然音频统计特性的无参考音频质量评价方法和装置。
背景技术
近年来,多媒体质量评价吸引了音频处理和图像处理等领域众多研究者的关注。根据待评价信号的类型,多媒体质量评价可以分为:图像/视频质量评价(image/videoquality assessment)和音频质量评价(audio quality assessment)。因其数量大、信息丰富等特点,图像和视频等视觉信号质量评价受到了更多研究者的关注,并提出了大量的视觉质量评价方法。与视觉质量评价相比,音频质量评价领域受到的关注更少,因此该领域尚缺乏更加深入和广泛的研究。该领域内有一些音频质量评价算法,但是目前仍然缺乏高效的音频质量评价算法,尤其缺乏简单易用且广泛适用于各种类型音频信号的音频质量评价算法。
现有的音频质量评价方法大多基于人类的听觉系统,通过引入复杂的心理声学模型和认知模型来构建音频质量评价模型。例如国际电信联盟在T.Thiede,W.C.Treurniet,R.Bitto,C.Schmidmer,T.Sporer,J.G.Beerends,and C.Colomes,“PEAQ-the ITUstandard for objective measurement of perceived audio quality,”J.AudioEng.Soc.,vol.48,no.1/2,pp.3–29,2000.》中提出的PEAQ(Perceptual Evaluation ofAudio Quality)模型,以心理声学模型为基础,通过信号变换、频带分组、掩蔽计算等方法来模拟人耳对声音产生响应到最终信息感知的过程,具体该方法算法主要有三大组成部分,包括心理声学模型、感知模型和神经网络。参考音频和失真音频分别经过心理声学模型处理后,各自的输出经由感知模型特征综合便可计算出一系列模型输出参数(ModelOutput Variables,MOV),然后由神经网络模块融合这些MOV得到一个描述音频质量的客观差异等级(Objective Difference Grade,ODG)。与PEAQ类似的这类方法很好地模拟了人类的听觉系统,在一定的条件下能够有效地估计音频质量,但是具有可推广性较差的缺点。
Alan Bovik等人在《A.K.Moorthy and A.C.Bovik,“Blind image qualityassessment:From natural scene statistics to perceptual quality,”IEEETrans.Image Process.,vol.20,no.12,pp.3350–3364,Dec.2011.》、《M.A.Saad,A.C.Bovik,and C.Charrier,“Blind image quality assessment:A natural scenestatistics approach in the DCT domain,”IEEE Trans.Image Process.,vol.21,no.8,pp.3339–3352,Aug.2012.》以及《A.Mittal,A.K.Moorthy,and A.C.Bovik,“No-referenceimage quality assessment in the spatial domain,”IEEE Trans.Image Process.,vol.21,no.12,pp.4695–4708,Dec.2012.》中大量利用了自然图像统计来评价图像质量。然而上述方法中的自然图像统计特性仅仅适用于图像及视频,所设计的方法也只能应用于图像和视频。
目前尚没有研究或方法将相关的自然图像统计特性推广并应用至音频,并设计相应的音频质量评价方法。
发明内容
针对现有技术中存在的上述不足,本发明的目的是提供一种基于自然音频统计特性的无参考音频质量评价方法,该方法通过将相关的自然图像统计特性推广至自然音频统计,从而实现基于自然音频统计的无参考音频质量评价。
本发明是通过以下技术方案实现的。
根据本发明的第一方面,提供一种基于自然音频统计特性的无参考音频质量评价方法,包括:
S1:对输入音频信号进行正则化处理,得到正则化后音频信号;
S2:利用自然音频统计特性,对S1中得到的正则化后音频信号进行建模,得到音频信号统计模型;
S3:提取基于S2中得到的自然音频统计模型的音频质量特征;
S4:对S3中得到的音频质量特征进行特征回归操作,得到最终的音频质量估计。
优选地,所述S1中,对输入音频信号进行正则化处理过程如下:
其中,wτ,τ=-T,…,T表示一个一维的局部高斯窗。
β表示以下参数:
式中,表示正则化后音频信号相邻样本乘积所服从的概率密度函数,v表示一个参数,用于控制分布的形状;σl表示一个参数,用于控制左侧分布的方差;σr表示一个参数,用于控制右侧分布的方差;βl及βr表示以下参数:
优选地,所述S3中,从自然音频统计模型中提取能够描述音频质量的分布参数;其中,广义高斯分布的形状参数α和方差参数σ2用于描述音频质量,非对称广义高斯分布的形状参数v、左方差参数右方差参数及其均值参数η均用于描述音频质量;
其中:
优选地,所述S3中,还包括:将输入音频信号下采样,然后提取多个尺度上的音频质量特征。
优选地,所述S4中,对S3中提取的音频质量特征进行特征回归,得到一个描述音频总体质量的单一质量分数。
优选地,对音频质量特征进行特征回归操作,采用机器学习特征融合方法。
优选地,对音频质量特征进行特征回归操作,采用神经网络的深度学习特征融合方法。
根据本发明的第二方面,提供一种基于自然音频统计特性的无参考音频质量评价装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述的基于自然音频统计特性的无参考音频质量评价方法。
与现有技术相比,本发明具有如下有益效果:
本发明提供的一种基于自然音频统计特性的无参考音频质量评价方法,该方法通过将相关的自然图像统计特性推广至自然音频统计,从而实现基于自然音频统计的无参考音频质量评价;该方法主要包含四大步骤:对输入音频信号进行正则化,利用自然音频统计特性进行建模,提取基于自然音频统计的音频质量特征,特征回归得到最终的音频质量估计;利用本发明提供的基于自然音频统计特性的无参考音频质量评价方法,可有效地在原始音频信号未知的情况下估计待测的音频信号质量。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为基于自然音频统计特性的无参考音频质量评价方法总体流程图;
图2为音频去关联前后相邻两个样本之间的散点图;其中,(a)为正则化之前音频信号相邻两个样本之间的散点图,(b)为正则化之后音频信号相邻两个样本之间的散点图;
图3为不同压缩程度的音频在正则化之后的直方图;其中,(a)为128kbps音频在正则化之后的直方图,(b)为32kbps音频在正则化之后的直方图,(c)为8kbps音频在正则化之后的直方图;
图4为不同压缩程度的音频在正则化之后相邻样本之间乘积的直方图;其中,(a)为128kbps音频在正则化之后相邻样本之间乘积的直方图,(b)为32kbps音频在正则化之后相邻样本之间乘积的直方图,(c)为8kbps音频在正则化之后相邻样本之间乘积的直方图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
本发明实施例提供了一种基于自然音频统计特性的无参考音频质量评价方法。
所述方法包括如下步骤:
第一步:对输入音频信号进行正则化处理,得到正则化后音频信号;
第二步:利用自然音频统计特性,对第一步中得到的正则化后音频信号进行建模,得到音频信号统计模型;
第三步:提取基于第二步中得到的自然音频统计模型的音频质量特征;
第四步:对第三步中得到的音频质量特征进行特征回归操作,得到最终的音频质量估计。
下面结合附图,对本发明实施例所提供的基于自然音频统计特性的无参考音频质量评价方法的详细步骤进一步详细阐述。
如图1所示,为本发明实施例所提供的基于自然音频统计特性的无参考音频质量评价方法总体流程图。所述方法包括如下步骤:
第一步、对输入音频信号进行正则化
用a(t)表述输入的原始音频信号,则对输入音频信号进行正则化过程如下:
其中,wτ,τ=-T,…,T表示一个一维的局部高斯窗。
对输入音频信号进行正则化还能起到一个作用,即去相邻音频样本之间的关联。一般地,音频信号在正则化之前相邻样本之间存在极大的关联性。图2中(a)显示了正则化之前音频信号相邻两个样本之间的散点图,由该散点图可以看出相邻两个样本之间存在一定程度上的线性关系。图2中(b)显示了正则化之后音频信号相邻两个样本之间的散点图,由该散点图可以看出相邻两个样本之间存在的线性关系几乎被完全去除。
第二步、利用自然音频统计特性进行建模
其中:
其中Γ(·)表示如下伽马函数:
其中:α控制分布的形状,而σ2控制分布的方差。
正则化音频的分布如图3所示,该图展示了原始音频经过128kbps,32kbps,或8kbps三种程度的音频压缩之后的正则化音频的分布。从该图可以看出,所有正则化音频都可以用广义高斯分布来拟合,此外随着压缩程度的不断加重,该分布越来越集中于0附近。
还服从以下非对称广义高斯分布
其中
正则化音频信号相邻的两个样本及之间的乘积p(t)的分布如图4所示,该图展示了原始音频经过128kbps,32kbps,或8kbps三种程度的音频压缩之后的正则化音频相邻样本乘积p(t)的分布。从该图可以看出,所有压缩程度音频的正则化音频相邻样本乘积p(t)都可以用非对称广义高斯分布来拟合,此外随着压缩程度的不断加重,该分布越来越集中于0附近。
第三步、提取基于自然音频统计的音频质量特征
从第二步中所述的服从的广义高斯分布和p(t)服从的非对称广义高斯分布中提取出能描述音频质量的分布参数。具体地,广义高斯分布的形状参数α和方差参数σ2可以描述音频质量,非对称广义高斯分布的形状参数v、左方差参数右方差参数以及以下均值参数:
均可以描述音频质量。
除了在单一原始尺度上提取上述广义高斯分布和非对称广义高斯分布的音频质量特征外,还可以将音频下采样,然后提取多个尺度上的音频质量特征。
第四步、特征回归得到最终的音频质量估计
对第三步中所述的音频质量特征进行回归,得到一个描述音频总体质量的单一质量分数,其中音频质量特征回归可以是支持向量机、随机森林等简单的机器学习特征融合方法,也可以是神经网络等复杂的深度学习特征融合方法。在数据量不大的情况下,可以优先使用支持向量机进行特征融合。
在本发明另一实施例中,还提供一种基于自然音频统计特性的无参考音频质量评价装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述任一项实施例中的基于自然音频统计特性的无参考音频质量评价方法。
实施效果:
为了对本发明上述实施例所提供的基于自然音频统计特性的无参考音频质量评价方法进行验证,可以在LIVE-SJTU Audio and Video Quality Assessment(A/V-QA)Database数据库上对相关算法进行测试。LIVE-SJTU A/V-QA数据库是一个音视频质量评价数据库,包含从14段高质量参考音视频中利用24种音视频失真类型/程度生成的336段失真音视频。其中24种失真条件包含两种视频失真类型(压缩及压缩加缩放,都包含四级失真程度)及一种音频失真类型(压缩,包含三级失真程度)的任意组合。实验利用视频质量专家组(VQEG)在Video Quality Experts Group(VQEG)Phase I Full Reference-TV test中提出的Spearman rank order correlation coefficients(SRCC)评价标准来衡量音视频质量评价方法的性能好坏。
实验利用LIVE-SJTU A/V-QA数据库中的80%数据进行训练,剩余的20%数据进行测试。该训练测试可以随机进行1000次,而1000测试的SRCC中值即可作为算法的性能测试结果。实验结果如表1所示,其中All表示包含所有视频;QP16、QP35、QP42、QP50分别表示所有包含QP16、QP35、QP42、QP50级别视频压缩的视频和任意失真级别音频的所有组合;QP16S、QP35S、QP42S、QP50S分别表示所有包含QP16、QP35、QP42、QP50级别视频压缩加缩放的视频和任意失真级别音频的所有组合。从表中可以看出,在限定视频的失真类型及失真程度时,本发明提供的基于自然音频统计特性的无参考音频质量评价方法可有效地估计音频质量对总体音视频质量的影响。
表1
SRCC | 1Scale | 2Scales | 3Scales | 4Scales |
QP16 | 0.8583 | 0.8333 | 0.8500 | 0.8667 |
QP35 | 0.8500 | 0.7833 | 0.7333 | 0.7000 |
QP42 | 0.7333 | 0.7000 | 0.7333 | 0.6833 |
QP50 | 0.7333 | 0.7500 | 0.6500 | 0.6084 |
QP16S | 0.8167 | 0.8167 | 0.8167 | 0.8333 |
QP35S | 0.7833 | 0.7667 | 0.6333 | 0.6833 |
QP42S | 0.7667 | 0.6833 | 0.6167 | 0.6167 |
QP50S | 0.7167 | 0.7500 | 0.7500 | 0.6167 |
本发明上述实施例所提供的一种基于自然音频统计特性的无参考音频质量评价方法,通过对输入音频信号进行正则化,利用自然音频统计特性进行建模,提取基于自然音频统计的音频质量特征,特征回归得到最终的音频质量估计四大步骤,可有效地评价音频质量。该方法通过将相关的自然图像统计特性推广至自然音频统计,从而实现基于自然音频统计的无参考音频质量评价。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (8)
1.一种基于自然音频统计特性的无参考音频质量评价方法,其特征在于,包括:
S1:对输入音频信号进行正则化处理,得到正则化后音频信号;
S2:利用自然音频统计特性,对S1中得到的正则化后音频信号进行建模,得到音频信号统计模型;
S3:提取基于S2中得到的自然音频统计模型的音频质量特征;
S4:对S3中得到的音频质量特征进行特征回归操作,得到最终的音频质量估计;
β表示以下参数:
式中,表示正则化后音频信号相邻样本乘积所服从的概率密度函数,v表示一个参数,用于控制分布的形状;σl表示一个参数,用于控制左侧分布的方差;σr表示一个参数,用于控制右侧分布的方差;βl及βr表示以下参数:
所述S3中,从自然音频统计模型中提取能够描述音频质量的分布参数;其中,广义高斯分布的形状参数α和方差参数σ2用于描述音频质量,非对称广义高斯分布的形状参数v、左方差参数右方差参数及其均值参数η均用于描述音频质量;
其中:
3.根据权利要求1所述的基于自然音频统计特性的无参考音频质量评价方法,其特征在于,所述S3中,还包括:将输入音频信号下采样,然后提取多个尺度上的音频质量特征。
4.根据权利要求1-3任一项所述的基于自然音频统计特性的无参考音频质量评价方法,其特征在于,所述S4中,对S3中提取的音频质量特征进行特征回归,得到一个描述音频总体质量的单一质量分数。
5.根据权利要求4所述的基于自然音频统计特性的无参考音频质量评价方法,其特征在于,对音频质量特征进行特征回归操作,采用机器学习特征融合方法。
6.根据权利要求5所述的基于自然音频统计特性的无参考音频质量评价方法,其特征在于,所述机器学习特征融合方法采用支持向量机进行特征融合。
7.根据权利要求4所述的基于自然音频统计特性的无参考音频质量评价方法,其特征在于,对音频质量特征进行特征回归操作,采用神经网络的深度学习特征融合方法。
8.一种基于自然音频统计特性的无参考音频质量评价装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010171602.9A CN111508528B (zh) | 2020-03-12 | 2020-03-12 | 基于自然音频统计特性的无参考音频质量评价方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010171602.9A CN111508528B (zh) | 2020-03-12 | 2020-03-12 | 基于自然音频统计特性的无参考音频质量评价方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111508528A CN111508528A (zh) | 2020-08-07 |
CN111508528B true CN111508528B (zh) | 2023-02-28 |
Family
ID=71877648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010171602.9A Active CN111508528B (zh) | 2020-03-12 | 2020-03-12 | 基于自然音频统计特性的无参考音频质量评价方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111508528B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111968677B (zh) * | 2020-08-21 | 2021-09-07 | 南京工程学院 | 面向免验配助听器的语音质量自评估方法 |
CN113689884B (zh) * | 2021-09-17 | 2024-01-26 | 中国电子科技集团公司第五十八研究所 | 多通道语音信号评估系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1195795A (ja) * | 1997-09-16 | 1999-04-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声品質評価方法および記録媒体 |
CN103957216A (zh) * | 2014-05-09 | 2014-07-30 | 武汉大学 | 基于音频信号特性分类的无参考音频质量评价方法和系统 |
WO2018028767A1 (en) * | 2016-08-09 | 2018-02-15 | Huawei Technologies Co., Ltd. | Devices and methods for evaluating speech quality |
-
2020
- 2020-03-12 CN CN202010171602.9A patent/CN111508528B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1195795A (ja) * | 1997-09-16 | 1999-04-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声品質評価方法および記録媒体 |
CN103957216A (zh) * | 2014-05-09 | 2014-07-30 | 武汉大学 | 基于音频信号特性分类的无参考音频质量评价方法和系统 |
WO2018028767A1 (en) * | 2016-08-09 | 2018-02-15 | Huawei Technologies Co., Ltd. | Devices and methods for evaluating speech quality |
CN109496334A (zh) * | 2016-08-09 | 2019-03-19 | 华为技术有限公司 | 用于评估语音质量的设备和方法 |
Non-Patent Citations (1)
Title |
---|
No-reference quality assessment for image sharpness and noise;Lijuan Tang et al.;《2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA)》;20170119;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111508528A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10984818B2 (en) | Devices and methods for evaluating speech quality | |
CN103996192B (zh) | 基于高质量自然图像统计量模型的无参考图像质量评价方法 | |
CN102422323B (zh) | 年龄估计装置、年龄估计方法 | |
CN109890043B (zh) | 一种基于生成式对抗网络的无线信号降噪方法 | |
CN108765414B (zh) | 基于小波分解和自然场景统计的无参考立体图像质量评价方法 | |
CN111080579B (zh) | 基于深度学习实现图像分割和分类的骨龄评估方法 | |
CN111508528B (zh) | 基于自然音频统计特性的无参考音频质量评价方法和装置 | |
CN111709914B (zh) | 一种基于hvs特性的无参考图像质量评价方法 | |
CN112465069B (zh) | 一种基于多尺度卷积核cnn的脑电情绪分类方法 | |
CN111429402A (zh) | 高级视觉感知特征与深度特征融合的图像质量评价方法 | |
CN110910347B (zh) | 一种基于图像分割的色调映射图像无参考质量评价方法 | |
CN115899598A (zh) | 一种融合听觉和视觉特征的供热管网状态监测方法及系统 | |
CN111914617A (zh) | 一种基于平衡栈式生成式对抗网络的人脸属性编辑方法 | |
CN111479107B (zh) | 基于自然音视频统计的无参考音视频联合质量评价方法 | |
CN112151067B (zh) | 一种基于卷积神经网络的数字音频篡改被动检测方法 | |
CN113963193A (zh) | 车身颜色分类模型生成的方法、装置以及存储介质 | |
CN111105387A (zh) | 基于统计特征视角合成质量预测方法、信息数据处理终端 | |
CN115984919A (zh) | 一种微表情识别方法及系统 | |
CN113255789B (zh) | 基于对抗网络和多被试脑电信号的视频质量评价方法 | |
CN114897884A (zh) | 基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法 | |
CN111508525B (zh) | 一种全参考音频质量评价方法及装置 | |
CN114464159A (zh) | 一种基于半流模型的声码器语音合成方法 | |
CN111325720B (zh) | 一种多视觉特征集成的无参考超分辨图像质量评价方法 | |
Namgyal et al. | What you hear is what you see: Audio quality metrics from image quality metrics | |
CN114140843B (zh) | 一种基于样本自修复的跨数据库表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |