CN102184733B - 基于音频关注度的音频质量评价系统及方法 - Google Patents

基于音频关注度的音频质量评价系统及方法 Download PDF

Info

Publication number
CN102184733B
CN102184733B CN2011101266846A CN201110126684A CN102184733B CN 102184733 B CN102184733 B CN 102184733B CN 2011101266846 A CN2011101266846 A CN 2011101266846A CN 201110126684 A CN201110126684 A CN 201110126684A CN 102184733 B CN102184733 B CN 102184733B
Authority
CN
China
Prior art keywords
subjective
sequence
phonetic notation
background sound
subitem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2011101266846A
Other languages
English (en)
Other versions
CN102184733A (zh
Inventor
胡瑞敏
杨玉红
高丽
杨裕才
曾琦
赵云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN2011101266846A priority Critical patent/CN102184733B/zh
Publication of CN102184733A publication Critical patent/CN102184733A/zh
Application granted granted Critical
Publication of CN102184733B publication Critical patent/CN102184733B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及音频评测领域,尤其涉及基于音频关注度的音频质量评价系统及方法。本发明提出了基于场景分类的评价方案,引入人类听觉自底向上和自顶向下的听觉机制,跟据测听声音进行划分场景的归类,依照不同的场景进行主观评测,对每个测听序列经行分项属性打分,然后融合得到一个最终的总得分,克服了现有主观评价不准确和不稳定的问题。

Description

基于音频关注度的音频质量评价系统及方法
技术领域
本发明涉及音频质量评价领域,尤其涉及基于音频关注度的音频质量评价系统及方法。
背景技术
随着音频信号应用领域的扩大和音频信号在人们生活中占据越来越重要的地位,对音频信号评价方法也是不断的发展,目前国际上的音频质量评价主要分为主观评价和客观评价两类,由于人作为音频信号的最终接受者,所以主观评价能最真实的反映失真音频信号的好坏,可以作为最终的评价结果,但是主观评价的结果容易受听音者的生理和心理状况以及听音场景信息不同而影响最终的评价结果,导致测评者的打分结果不稳定。
目前的主观评价方法设计基本都涵盖了人类自底向上的生理反应特性,心理学研究表明人类听觉具有自底向上和自顶向下两种关注机制。对于不同的声音场景,人类选择关注声音以及关注程度会有所不同,并且在有先验知识与无先验知识情况下的关注结果也会不同。现有的音频质量评测体系虽然有较准确的评价方法,但现有方法主要基于人耳的听觉掩蔽模型,没有考虑与应用场景相关的心理选择关注机制,从而不能真实、准确地反映人类听觉效应;另一方面现有方法一定程度上受听音者的情绪、偏好等因素影响,致使评价结果不稳定。因此为了保证音频质量主观评价方法与人类听觉效应相一致,并使评价结果更加准确与稳定,需将心理关注选择机制引入主观质量评价,建立一种基于场景分类的分角度音频主观质量评价方法,以此反映人类真实的听觉特性,进而保证听觉关注度客观评价模型准确地建立。
发明内容
本发明的目的是提供基于音频关注度的音频质量评价技术方案,以解决目前主观评价测试结果不稳定的问题。
为达到上述目的,本发明提供一种基于音频关注度的音频质量评价系统,包括关注音及背景音特征分离提取模块、主观评价分项得分模块及关注音主观评分模块,
所述关注音及背景音特征分离提取模块,用于根据输入的场景背景音类型信息和关注音类型信息,分别提取场景背景音的特征属性和关注音的特征属性,输出给主观评价分项得分模块;
所述主观评价分项得分模块,用于根据原始音频测试序列集、失真音频序列集和由关注音及背景音特征分离提取模块输入的特征属性,从场景背景音的各项特征属性分别给出分项主观得分,从关注音的各项特征属性分别给出分项主观得分,并输出到关注音主观评分模块;
所述关注音主观评分模块,用于根据由主观评价分项得分模块输入的分项主观得分得到单一的最终主观得分,并对最终主观得分进行数据统计处理。
本发明还提供相应基于音频关注度的音频质量评价方法,包括以下步骤: 
步骤1,根据场景选取作为参考的原始音频测试序列集,记为原始测试集A;
步骤2,对步骤1所得原始测试集A中的序列进行多种不同失真处理,得到失真音频序列集,记为失真序列集B,失真处理的种数记为n,原始测试集A中每一个序列分别对应失真序列集B中的n种失真序列; 
步骤3,从原始测试集A当中选取一个序列                                                
Figure 505156DEST_PATH_IMAGE001
,同时从失真序列集B中挑出所有由序列
Figure 581696DEST_PATH_IMAGE001
得到的失真序列
Figure 899545DEST_PATH_IMAGE002
; 
步骤4,确定序列
Figure 352523DEST_PATH_IMAGE001
的场景背景音类型信息和关注音类型信息,场景背景音的类型记为br,关注音的类型记为attention; 
步骤5,提取场景背景音和关注音的各自特征属性并分离,场景背景音的特征属性记为feature(br), 关注音的特征属性记为feature(attention);
步骤6,根据步骤5获得的特征属性feature(br)和feature(attention),对失真序列
Figure 337797DEST_PATH_IMAGE002
分别给出分项主观得分;
步骤7,根据对每一个失真序列
Figure 585239DEST_PATH_IMAGE003
的分项主观得分,得出最终主观得分
Figure 328067DEST_PATH_IMAGE004
,j取1~n;
步骤8,返回步骤3,从原始测试集A当中选取下一个序列,重复执行步骤3~7,直到对原始测试集A中所有序列处理完,对每次执行步骤7所得最终主观得分
Figure 381473DEST_PATH_IMAGE004
进行数据统计处理。
本发明根据音频关注度模型,提出基于场景信息的关注度评价方案,克服了现有主观评价不准确和不稳定的问题;首创通过结合场景信息进行主观评价,更符合人类主观评价的心理打分原则。本发明的系统结构简单,实施便捷。
附图说明
图1是本发明的方法流程图。
具体实施方式
下面结合实施例对本发明作进一步说明:
本发明实施例所提供基于音频关注度的音频质量评价系统,具体包括以下部分,具体实施时可以采用软件固化技术实现各模块。
关注音及背景音特征分离提取模块:根据输入的场景背景音类型信息和关注音类型信息,分别提取场景背景音的特征属性和关注音的特征属性,输出给主观评价分项得分模块。本模块的输入是场景要义信息,包括场景背景音类型信息和关注音类型信息。场景要义信息在作为关注音及背景音特征分割提取模块的输入同时,还可以用来告知测听者,作为测听者的先验测听知识。例如,输入信息包括:场景背景音类型为语音,关注音类型为音乐。从而将表征语音的特征属性——基音周期和带宽确定为场景背景音的特征属性,将表征音乐的特征属性——谐波和带宽确定为关注音的特征属性,然后输出到主观评价分项得分模块。
主观评价分项得分模块:主观评价分项得分模块,根据原始音频测试序列集、失真音频序列集和由关注音及背景音特征分离提取模块输入的特征属性,从场景背景音的各项特征属性分别给出分项主观得分,从关注音的各项特征属性分别给出分项主观得分,并输出到关注音主观评分模块。可以采用现有的原始音频测试序列集、失真音频序列集,直接作为本模块输入。也可以如方法中的步骤1和2,自行制作原始音频测试序列集、失真音频序列集,作为本模块输入。一般从声音的谐波、带宽圆润度、清晰度、真实感、空间感等方面分别给出分项主观得分,能够说明声音质量。本模块则是根据关注音及背景音特征分离提取模块确定的特征属性进行评价。例如场景背景音的特征属性为基音周期和带宽,则分别从基音周期和带宽这两个方面给出分项主观得分;关注音的特征属性为谐波和带宽,则分别从谐波和带宽这两个方面给出分项主观得分。
关注音主观评分模块:用于根据由主观评价分项得分模块输入的分项主观得分得到单一的最终主观得分,并对主观得分数据进行统计处理。最终主观得分是融合分项主观得分后,体现音频质量主观评价的分数。具体融合方式可以采用现有的多元线性回归分析技术或者人工神经网络模型技术。本发明建议采用人工神经网络模型实现,人工神经网络模型的建立可以通过预先根据场景要义建立相应的训练集序列,以分项主观得分加权逼近最终主观得分,就能训练出一系列基于场景的加权值。
参见附图1,本发明提供的基于关注度的主观评价方法,可以采用计算机软件技术手段自动实现流程,具体包括以下步骤:
步骤1,根据场景选取作为参考的原始音频测试序列集,记为原始测试集A。具体制作原始音频测试序列集时,序列集的选取依赖于场景,对场景中应包含的典型声音类型进行混合,记为原始测试集A。
步骤2,对步骤1所得原始测试集A中的序列进行多种不同失真处理,得到失真音频序列集,记为失真序列集B,失真处理的种数记为n,原始测试集A中每一个序列分别对应失真序列集B中的n种失真序列。原始音频测试序列集作为参考,失真音频序列集就是待测目标。具体实施时,失真处理可以选用现有测试编码器实现,失真种类根据编码器跨度范围不同。因此n值根据具体采用的编码器或者其他音频系统的情况而定。
步骤3,从原始测试集A当中选取一个序列
Figure 158936DEST_PATH_IMAGE001
,同时从失真序列集B中挑出所有由序列
Figure 639596DEST_PATH_IMAGE001
得到的失真序列
Figure 135300DEST_PATH_IMAGE002
步骤4,确定序列
Figure 664501DEST_PATH_IMAGE001
的场景要义信息,包括场景背景音类型信息和关注音类型信息,场景背景音的类型记为br,关注音的类型记为attention。例如,场景背景音的类型br为语音,关注音的类型attention为音乐。
步骤5,提取场景背景音和关注音的各自特征属性并分离,场景背景音的特征属性记为feature(br), 关注音的特征属性记为feature(attention) 。例如,场景背景音的特征属性为基音周期和带宽,采用属性数组feature(br)记载,将关注音的特征属性为谐波和带宽,采用属性数组feature(attention)记载。
步骤6,根据步骤5获得的特征属性feature(br)和feature(attention),对失真序列
Figure 559120DEST_PATH_IMAGE002
分别给出分项主观得分。
例如,根据场景背景音的特征属性之一基音周期,对失真序列分别给出场景背景音的分项主观得分,根据场景背景音的特征属性之一带宽,对失真序列
Figure 928102DEST_PATH_IMAGE002
分别给出场景背景音的分项主观得分;根据关注音的特征属性之一谐波,对失真序列
Figure 260994DEST_PATH_IMAGE002
分别给出关注音的分项主观得分,根据关注音的特征属性之一带宽,对失真序列分别给出关注音的分项主观得分。
具体实施时可以采用这种方式给出分项主观得分:首先选取12个专业测听者,然后进行训练测试,告知测听者场景信息,让测听者听完序列
Figure 835512DEST_PATH_IMAGE001
Figure 102545DEST_PATH_IMAGE002
后,对每一个失真序列从声音的各项特征属性分别给出分项主观得分。该训练测试步骤的评分不作最后统计,目的是让测听者熟悉场景和测听序列。最后进行评分测试,过程为在训练测试步骤完之后,让测听者回到测试主界面,在被告知场景信息的情况下,让测听者听完序列
Figure 845690DEST_PATH_IMAGE001
后,对失真序列
Figure 468750DEST_PATH_IMAGE002
依次从声音的各项特征属性分别给出分项主观得分,该评分测试步骤给出的评分为有效评分。
步骤7,根据对每一个失真序列
Figure 471341DEST_PATH_IMAGE003
的分项主观得分,得出最终主观得分,j取1~n。具体融合方式可以采用现有的多元线性回归分析技术或者人工神经网络模型技术。
步骤8,返回步骤3,从原始测试集A当中选取下一个序列,重复执行步骤3~7,直到对原始测试集A中所有序列处理完,对每次执行步骤7所得最终主观得分
Figure 93745DEST_PATH_IMAGE004
进行数据统计处理。具体统计处理的方式可由用户根据需要指定。
下面进一步以具体实施例对本发明的方法技术方案作进一步说明:
步骤一,选取交通路边场景信息的一组12个序列,这12个序列包含路边的一些典型声音,包括汽车喇叭声和语音,其中关注音为语音,这12个序列构成的原始测试集记为A。 
步骤二,对步骤一所得12个序列分别进行不同失真的处理,处理编码器选择AMR-WB+编码器。
实施例中对于每一个序列分别在12kbps、16kbps、24kbps和48kbps码率下进行这四种失真处理,得到的失真序列分别记为
Figure 273053DEST_PATH_IMAGE005
,共同构成失真序列集B。
步骤三,从原始测试集A当中选取一个序列
Figure 751439DEST_PATH_IMAGE001
,同时从失真序列集B中挑出所有由
Figure 129331DEST_PATH_IMAGE001
得到的失真序列
Figure 667760DEST_PATH_IMAGE006
。可以将原始测试集A的序列记为
Figure 68785DEST_PATH_IMAGE007
,其中任一序列记为,i取1~12。由于是每次从原始测试集A当中选取一个序列进行处理,直到原始测试集A中所有序列处理完,可以从序列
Figure 583260DEST_PATH_IMAGE008
开始执行步骤三~七,然后取序列
Figure 354907DEST_PATH_IMAGE009
开始执行步骤三~七…直到取序列
Figure 243228DEST_PATH_IMAGE010
执行步骤三~七完成。
步骤四,按照选取的序列
Figure 63417DEST_PATH_IMAGE001
,确定
Figure 415901DEST_PATH_IMAGE001
的场景信息,在此实施例中场景背景音的类型br为汽车喇叭声,关注音的类型attention为语音。
步骤五,根据步骤四所确定场景背景音的类型br和关注音的类型attention,提取场景背景音和关注音各自的属性特征并分离,场景背景音的特征属性记为feature(br) ,关注音的特征属性记为feature(attention)。汽车喇叭声的特征属性为带宽和白噪声,在数组feature(br)中记载;语音的特征属性为基音周期和带宽,在数组feature(attention)中记载。
步骤六,根据步骤五获得的各项特征属性,对失真序列
Figure 293203DEST_PATH_IMAGE006
分别给出分项主观得分。实施例的主观评价平台选取ITU-T标准的MUSHRA主观测试平台。
实施例根据场景背景音的特征属性之一带宽,对失真序列
Figure 668820DEST_PATH_IMAGE006
分别给出场景背景音的分项主观得分,根据场景背景音的特征属性之一白噪声,对失真序列
Figure 355016DEST_PATH_IMAGE006
分别给出场景背景音的分项主观得分;然后根据关注音的特征属性之一基音周期,对失真序列
Figure 499690DEST_PATH_IMAGE006
分别给出关注音的分项主观得分,根据关注音的特征属性之一带宽,对失真序列
Figure 613140DEST_PATH_IMAGE006
分别给出关注音的分项主观得分。因此对每一个失真序列
Figure 476053DEST_PATH_IMAGE003
总共得到4个分项主观得分。
步骤七,根据对每一个失真序列
Figure 638044DEST_PATH_IMAGE003
的分项主观得分,得出最终主观得分
Figure 965120DEST_PATH_IMAGE004
,j取1~4。
实施例通过运用人工神经网络模型实现融合,具体实施可参见相关现有技术,基本过程如下:
建立人工神经网络模型,入口函数为
Figure 921575DEST_PATH_IMAGE011
,其中e为数学常数,x为该函数的输入。
该模型包含M个输入,并且神经网络模型的隐层中有N个节点。预先建立基于场景要义的序列集,对模型映射过程中输入层的两个限制因子
Figure 334102DEST_PATH_IMAGE012
Figure 299784DEST_PATH_IMAGE013
、输入层的加权系数
Figure 419050DEST_PATH_IMAGE014
、输出层的加权系数
Figure 874302DEST_PATH_IMAGE015
以及输出层的两个限制因子
Figure 443299DEST_PATH_IMAGE016
进行训练,得到一系列基于场景的系数集合。
将步骤五所得分项主观得分作为神经网络模型的输入
Figure 248761DEST_PATH_IMAGE018
输入给神经网络模型,根据预先建立序列集训练出来的相对应的一组系数,映射到一个索引(Distortion Index,DI)值:
Figure 812597DEST_PATH_IMAGE019
其中
Figure 871820DEST_PATH_IMAGE020
取0~M-1,
Figure 179305DEST_PATH_IMAGE021
取0~N-1。因为对每一个失真序列
Figure 335480DEST_PATH_IMAGE003
得到4个分项主观得分,M取值为4。N作为隐藏节点数,可以设为4。
利用索引DI,最终计算出音频质量主观质量评价分数:
Figure 70217DEST_PATH_IMAGE022
 该分数为失真序列的最终主观得分。
步骤八:返回步骤三,从原始测试集A当中选取下一个序列,重复执行步骤三~七,直到对原始测试集A中所有序列
Figure 679053DEST_PATH_IMAGE007
处理完,对每次执行步骤七所得最终主观得分
Figure 524650DEST_PATH_IMAGE004
进行数据统计处理。
实施例处理对原始测试集A中所有12条序列分别得到的最终主观得分,以平均值等级和标准偏差实现统计。
MUSHRA代表平均意见分,DMUSHRA代表损伤平均意见分。95%置信区间用上下限表示。条件C的MUSHRA分等于该条件下所有听音人对所有语料评分的平均值,即:
Figure 473014DEST_PATH_IMAGE023
其中
Figure 440970DEST_PATH_IMAGE024
代表第t名听音人对条件C下的第l条语料的最终主观评分
Figure 471855DEST_PATH_IMAGE004
,i取1~12,j取1~4。公式中L代表测听语料中个数,原始测试集A中有12条序列,因此L=12,l取1~12。公式中T代表测听人数,T=12,t取1~12。条件C的得分标准差可以用下式计算:
Figure 121143DEST_PATH_IMAGE025
                  
条件C下,
Figure 986330DEST_PATH_IMAGE026
个评分的95%置信区间为:
                         
Figure 62871DEST_PATH_IMAGE027
                                   
其中
Figure 646299DEST_PATH_IMAGE028
表示服从t分布,查统计学当中的t分布表得结果, 
Figure 756654DEST_PATH_IMAGE030
=0.05。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变换或变型,因此所有等同的技术方案,都落入本发明的保护范围。

Claims (2)

1.一种基于音频关注度的音频质量评价系统,其特征在于:包括关注音及背景音特征分离提取模块、主观评价分项得分模块和关注音主观评分模块,
所述关注音及背景音特征分离提取模块,用于根据输入的场景背景音类型信息和关注音类型信息,分别提取场景背景音的特征属性和关注音的特征属性,输出给主观评价分项得分模块;
所述主观评价分项得分模块,用于根据原始音频测试序列集、失真音频序列集和由关注音及背景音特征分离提取模块输入的特征属性,从场景背景音的各项特征属性分别给出分项主观得分,从关注音的各项特征属性分别给出分项主观得分,并输出到关注音主观评分模块;
所述关注音主观评分模块,用于根据由主观评价分项得分模块输入的分项主观得分得到单一的最终主观得分,并对最终主观得分进行数据统计处理;所述由主观评价分项得分模块输入的分项主观得分,包括从场景背景音的各项特征属性分别给出的分项主观得分和从关注音的各项特征属性分别给出的分项主观得分。
2.一种基于音频关注度的音频质量评价方法,其特征在于,包括以下步骤:
步骤1,根据场景选取作为参考的原始音频测试序列集,记为原始测试集A;
步骤2,对步骤1所得原始测试集A中的序列进行多种不同失真处理,得到失真音频序列集,记为失真序列集B,失真处理的种数记为n,原始测试集A中每一个序列分别对应失真序列集B中的n种失真序列;
步骤3,从原始测试集A当中选取一个序列ai,同时从失真序列集B中挑出所有由序列ai得到的失真序列b1(ai),b2(ai),.......,bn(ai);
步骤4,确定序列ai的场景背景音类型信息和关注音类型信息,场景背景音的类型记为br,关注音的类型记为attention;
步骤5,提取场景背景音和关注音的各自特征属性并分离,场景背景音的特征属性记为feature(br),关注音的特征属性记为feature(attention);
步骤6,根据步骤5获得的特征属性feature(br)和feature(attention),对失真序列b1(ai),b2(ai),.......,bn(ai)分别给出分项主观得分;
步骤7,根据对每一个失真序列bj(ai)的分项主观得分,得出最终主观得分sdg[bj(ai)],j取1~n;
步骤8,返回步骤3,从原始测试集A当中选取下一个序列,重复执行步骤3~7,直到对原始测试集A中所有序列处理完,对每次执行步骤7所得最终主观得分sdg[bj(ai)]进行数据统计处理。
CN2011101266846A 2011-05-17 2011-05-17 基于音频关注度的音频质量评价系统及方法 Expired - Fee Related CN102184733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101266846A CN102184733B (zh) 2011-05-17 2011-05-17 基于音频关注度的音频质量评价系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101266846A CN102184733B (zh) 2011-05-17 2011-05-17 基于音频关注度的音频质量评价系统及方法

Publications (2)

Publication Number Publication Date
CN102184733A CN102184733A (zh) 2011-09-14
CN102184733B true CN102184733B (zh) 2012-07-25

Family

ID=44570899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101266846A Expired - Fee Related CN102184733B (zh) 2011-05-17 2011-05-17 基于音频关注度的音频质量评价系统及方法

Country Status (1)

Country Link
CN (1) CN102184733B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102496369B (zh) * 2011-12-23 2016-02-24 中国传媒大学 一种基于失真校正的压缩域音频质量客观评价方法
CN107103901B (zh) * 2017-04-03 2019-12-24 浙江诺尔康神经电子科技股份有限公司 人工耳蜗声音场景识别系统和方法
TWI651718B (zh) 2017-09-12 2019-02-21 華碩電腦股份有限公司 音訊處理方法及音訊處理裝置
CN107978343A (zh) * 2017-11-02 2018-05-01 刘莉 电子病历的评价系统
CN109040778B (zh) * 2018-09-12 2021-01-22 武汉轻工大学 视频封面的确定方法、用户设备、存储介质及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004199047A (ja) * 2002-12-06 2004-07-15 Nippon Telegr & Teleph Corp <Ntt> 信号圧縮方法、装置、そのプログラムと記録媒体、信号検索方法、装置、プログラムとその記録媒体
CN101499279A (zh) * 2009-03-06 2009-08-05 武汉大学 空间参数逐级精细的比特分配方法及其装置
CN101499300A (zh) * 2009-03-06 2009-08-05 武汉大学 一种基于空间音频参数的音频关注度分析装置
CN101650947A (zh) * 2009-09-17 2010-02-17 武汉大学 一种面向对象音频编解码方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4415232B2 (ja) * 2000-10-12 2010-02-17 ソニー株式会社 情報処理装置および方法、並びにプログラム記録媒体
US7877252B2 (en) * 2007-05-18 2011-01-25 Stmicroelectronics S.R.L. Automatic speech recognition method and apparatus, using non-linear envelope detection of signal power spectra

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004199047A (ja) * 2002-12-06 2004-07-15 Nippon Telegr & Teleph Corp <Ntt> 信号圧縮方法、装置、そのプログラムと記録媒体、信号検索方法、装置、プログラムとその記録媒体
CN101499279A (zh) * 2009-03-06 2009-08-05 武汉大学 空间参数逐级精细的比特分配方法及其装置
CN101499300A (zh) * 2009-03-06 2009-08-05 武汉大学 一种基于空间音频参数的音频关注度分析装置
CN101650947A (zh) * 2009-09-17 2010-02-17 武汉大学 一种面向对象音频编解码方法及系统

Also Published As

Publication number Publication date
CN102184733A (zh) 2011-09-14

Similar Documents

Publication Publication Date Title
CN102184733B (zh) 基于音频关注度的音频质量评价系统及方法
Davies et al. Perception of soundscapes: An interdisciplinary approach
CN108419091A (zh) 一种基于机器学习的视频内容审核方法及装置
US11786171B2 (en) Method and system for articulation evaluation by fusing acoustic features and articulatory movement features
CN101933085B (zh) 音频质量客观感知评估方法及其设备
Zhang et al. Effects of telephone transmission on the performance of formant-trajectory-based forensic voice comparison–female voices
CN110148394A (zh) 歌声合成方法、装置、计算机设备及存储介质
CN107293286A (zh) 一种基于网络配音游戏的语音样本收集方法
CN112259104A (zh) 一种声纹识别模型的训练装置
CN108206027A (zh) 一种音频质量评价方法及系统
Zhang et al. Reliability of human-supervised formant-trajectory measurement for forensic voice comparison
Amin et al. Glottal and vocal tract characteristics of voice impersonators
CN108898164A (zh) 一种基于特征融合的鸟鸣自动识别方法
Liu et al. Categorical perception of intonation contrasts: Effects of listeners’ language background
CN108615536A (zh) 基于麦克风阵列的时频联合特征乐器音质评价系统及方法
CN106205635A (zh) 语音处理方法及系统
CN105825868A (zh) 一种演唱者有效音域的提取方法
Aharonson et al. A real-time phoneme counting algorithm and application for speech rate monitoring
CN111554325B (zh) 一种嗓音识别方法及系统
CN114678039A (zh) 一种基于深度学习的歌唱评价方法
Allison et al. Reliability of perceptual judgments of phonetic accuracy and hypernasality among speech-language pathologists for children with dysarthria
CN102231279A (zh) 基于听觉关注度的音频质量客观评价系统及方法
Falk et al. Improving instrumental quality prediction performance for the Blizzard Challenge
JP2014007556A (ja) 聴覚印象量推定装置及びそのプログラム
Bai et al. Experimental analysis on auditory attention saliency calculation models

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120725

Termination date: 20160517