CN102184733B - 基于音频关注度的音频质量评价系统及方法 - Google Patents
基于音频关注度的音频质量评价系统及方法 Download PDFInfo
- Publication number
- CN102184733B CN102184733B CN2011101266846A CN201110126684A CN102184733B CN 102184733 B CN102184733 B CN 102184733B CN 2011101266846 A CN2011101266846 A CN 2011101266846A CN 201110126684 A CN201110126684 A CN 201110126684A CN 102184733 B CN102184733 B CN 102184733B
- Authority
- CN
- China
- Prior art keywords
- subjective
- sequence
- phonetic notation
- background sound
- subitem
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
本发明涉及音频评测领域,尤其涉及基于音频关注度的音频质量评价系统及方法。本发明提出了基于场景分类的评价方案,引入人类听觉自底向上和自顶向下的听觉机制,跟据测听声音进行划分场景的归类,依照不同的场景进行主观评测,对每个测听序列经行分项属性打分,然后融合得到一个最终的总得分,克服了现有主观评价不准确和不稳定的问题。
Description
技术领域
本发明涉及音频质量评价领域,尤其涉及基于音频关注度的音频质量评价系统及方法。
背景技术
随着音频信号应用领域的扩大和音频信号在人们生活中占据越来越重要的地位,对音频信号评价方法也是不断的发展,目前国际上的音频质量评价主要分为主观评价和客观评价两类,由于人作为音频信号的最终接受者,所以主观评价能最真实的反映失真音频信号的好坏,可以作为最终的评价结果,但是主观评价的结果容易受听音者的生理和心理状况以及听音场景信息不同而影响最终的评价结果,导致测评者的打分结果不稳定。
目前的主观评价方法设计基本都涵盖了人类自底向上的生理反应特性,心理学研究表明人类听觉具有自底向上和自顶向下两种关注机制。对于不同的声音场景,人类选择关注声音以及关注程度会有所不同,并且在有先验知识与无先验知识情况下的关注结果也会不同。现有的音频质量评测体系虽然有较准确的评价方法,但现有方法主要基于人耳的听觉掩蔽模型,没有考虑与应用场景相关的心理选择关注机制,从而不能真实、准确地反映人类听觉效应;另一方面现有方法一定程度上受听音者的情绪、偏好等因素影响,致使评价结果不稳定。因此为了保证音频质量主观评价方法与人类听觉效应相一致,并使评价结果更加准确与稳定,需将心理关注选择机制引入主观质量评价,建立一种基于场景分类的分角度音频主观质量评价方法,以此反映人类真实的听觉特性,进而保证听觉关注度客观评价模型准确地建立。
发明内容
本发明的目的是提供基于音频关注度的音频质量评价技术方案,以解决目前主观评价测试结果不稳定的问题。
为达到上述目的,本发明提供一种基于音频关注度的音频质量评价系统,包括关注音及背景音特征分离提取模块、主观评价分项得分模块及关注音主观评分模块,
所述关注音及背景音特征分离提取模块,用于根据输入的场景背景音类型信息和关注音类型信息,分别提取场景背景音的特征属性和关注音的特征属性,输出给主观评价分项得分模块;
所述主观评价分项得分模块,用于根据原始音频测试序列集、失真音频序列集和由关注音及背景音特征分离提取模块输入的特征属性,从场景背景音的各项特征属性分别给出分项主观得分,从关注音的各项特征属性分别给出分项主观得分,并输出到关注音主观评分模块;
所述关注音主观评分模块,用于根据由主观评价分项得分模块输入的分项主观得分得到单一的最终主观得分,并对最终主观得分进行数据统计处理。
本发明还提供相应基于音频关注度的音频质量评价方法,包括以下步骤:
步骤1,根据场景选取作为参考的原始音频测试序列集,记为原始测试集A;
步骤2,对步骤1所得原始测试集A中的序列进行多种不同失真处理,得到失真音频序列集,记为失真序列集B,失真处理的种数记为n,原始测试集A中每一个序列分别对应失真序列集B中的n种失真序列;
步骤5,提取场景背景音和关注音的各自特征属性并分离,场景背景音的特征属性记为feature(br), 关注音的特征属性记为feature(attention);
本发明根据音频关注度模型,提出基于场景信息的关注度评价方案,克服了现有主观评价不准确和不稳定的问题;首创通过结合场景信息进行主观评价,更符合人类主观评价的心理打分原则。本发明的系统结构简单,实施便捷。
附图说明
图1是本发明的方法流程图。
具体实施方式
下面结合实施例对本发明作进一步说明:
本发明实施例所提供基于音频关注度的音频质量评价系统,具体包括以下部分,具体实施时可以采用软件固化技术实现各模块。
关注音及背景音特征分离提取模块:根据输入的场景背景音类型信息和关注音类型信息,分别提取场景背景音的特征属性和关注音的特征属性,输出给主观评价分项得分模块。本模块的输入是场景要义信息,包括场景背景音类型信息和关注音类型信息。场景要义信息在作为关注音及背景音特征分割提取模块的输入同时,还可以用来告知测听者,作为测听者的先验测听知识。例如,输入信息包括:场景背景音类型为语音,关注音类型为音乐。从而将表征语音的特征属性——基音周期和带宽确定为场景背景音的特征属性,将表征音乐的特征属性——谐波和带宽确定为关注音的特征属性,然后输出到主观评价分项得分模块。
主观评价分项得分模块:主观评价分项得分模块,根据原始音频测试序列集、失真音频序列集和由关注音及背景音特征分离提取模块输入的特征属性,从场景背景音的各项特征属性分别给出分项主观得分,从关注音的各项特征属性分别给出分项主观得分,并输出到关注音主观评分模块。可以采用现有的原始音频测试序列集、失真音频序列集,直接作为本模块输入。也可以如方法中的步骤1和2,自行制作原始音频测试序列集、失真音频序列集,作为本模块输入。一般从声音的谐波、带宽圆润度、清晰度、真实感、空间感等方面分别给出分项主观得分,能够说明声音质量。本模块则是根据关注音及背景音特征分离提取模块确定的特征属性进行评价。例如场景背景音的特征属性为基音周期和带宽,则分别从基音周期和带宽这两个方面给出分项主观得分;关注音的特征属性为谐波和带宽,则分别从谐波和带宽这两个方面给出分项主观得分。
关注音主观评分模块:用于根据由主观评价分项得分模块输入的分项主观得分得到单一的最终主观得分,并对主观得分数据进行统计处理。最终主观得分是融合分项主观得分后,体现音频质量主观评价的分数。具体融合方式可以采用现有的多元线性回归分析技术或者人工神经网络模型技术。本发明建议采用人工神经网络模型实现,人工神经网络模型的建立可以通过预先根据场景要义建立相应的训练集序列,以分项主观得分加权逼近最终主观得分,就能训练出一系列基于场景的加权值。
参见附图1,本发明提供的基于关注度的主观评价方法,可以采用计算机软件技术手段自动实现流程,具体包括以下步骤:
步骤1,根据场景选取作为参考的原始音频测试序列集,记为原始测试集A。具体制作原始音频测试序列集时,序列集的选取依赖于场景,对场景中应包含的典型声音类型进行混合,记为原始测试集A。
步骤2,对步骤1所得原始测试集A中的序列进行多种不同失真处理,得到失真音频序列集,记为失真序列集B,失真处理的种数记为n,原始测试集A中每一个序列分别对应失真序列集B中的n种失真序列。原始音频测试序列集作为参考,失真音频序列集就是待测目标。具体实施时,失真处理可以选用现有测试编码器实现,失真种类根据编码器跨度范围不同。因此n值根据具体采用的编码器或者其他音频系统的情况而定。
步骤4,确定序列的场景要义信息,包括场景背景音类型信息和关注音类型信息,场景背景音的类型记为br,关注音的类型记为attention。例如,场景背景音的类型br为语音,关注音的类型attention为音乐。
步骤5,提取场景背景音和关注音的各自特征属性并分离,场景背景音的特征属性记为feature(br), 关注音的特征属性记为feature(attention) 。例如,场景背景音的特征属性为基音周期和带宽,采用属性数组feature(br)记载,将关注音的特征属性为谐波和带宽,采用属性数组feature(attention)记载。
例如,根据场景背景音的特征属性之一基音周期,对失真序列分别给出场景背景音的分项主观得分,根据场景背景音的特征属性之一带宽,对失真序列分别给出场景背景音的分项主观得分;根据关注音的特征属性之一谐波,对失真序列分别给出关注音的分项主观得分,根据关注音的特征属性之一带宽,对失真序列分别给出关注音的分项主观得分。
具体实施时可以采用这种方式给出分项主观得分:首先选取12个专业测听者,然后进行训练测试,告知测听者场景信息,让测听者听完序列和后,对每一个失真序列从声音的各项特征属性分别给出分项主观得分。该训练测试步骤的评分不作最后统计,目的是让测听者熟悉场景和测听序列。最后进行评分测试,过程为在训练测试步骤完之后,让测听者回到测试主界面,在被告知场景信息的情况下,让测听者听完序列和后,对失真序列依次从声音的各项特征属性分别给出分项主观得分,该评分测试步骤给出的评分为有效评分。
步骤8,返回步骤3,从原始测试集A当中选取下一个序列,重复执行步骤3~7,直到对原始测试集A中所有序列处理完,对每次执行步骤7所得最终主观得分进行数据统计处理。具体统计处理的方式可由用户根据需要指定。
下面进一步以具体实施例对本发明的方法技术方案作进一步说明:
步骤一,选取交通路边场景信息的一组12个序列,这12个序列包含路边的一些典型声音,包括汽车喇叭声和语音,其中关注音为语音,这12个序列构成的原始测试集记为A。
步骤二,对步骤一所得12个序列分别进行不同失真的处理,处理编码器选择AMR-WB+编码器。
步骤三,从原始测试集A当中选取一个序列,同时从失真序列集B中挑出所有由得到的失真序列。可以将原始测试集A的序列记为,其中任一序列记为,i取1~12。由于是每次从原始测试集A当中选取一个序列进行处理,直到原始测试集A中所有序列处理完,可以从序列开始执行步骤三~七,然后取序列开始执行步骤三~七…直到取序列执行步骤三~七完成。
步骤五,根据步骤四所确定场景背景音的类型br和关注音的类型attention,提取场景背景音和关注音各自的属性特征并分离,场景背景音的特征属性记为feature(br) ,关注音的特征属性记为feature(attention)。汽车喇叭声的特征属性为带宽和白噪声,在数组feature(br)中记载;语音的特征属性为基音周期和带宽,在数组feature(attention)中记载。
实施例根据场景背景音的特征属性之一带宽,对失真序列分别给出场景背景音的分项主观得分,根据场景背景音的特征属性之一白噪声,对失真序列分别给出场景背景音的分项主观得分;然后根据关注音的特征属性之一基音周期,对失真序列分别给出关注音的分项主观得分,根据关注音的特征属性之一带宽,对失真序列分别给出关注音的分项主观得分。因此对每一个失真序列总共得到4个分项主观得分。
实施例通过运用人工神经网络模型实现融合,具体实施可参见相关现有技术,基本过程如下:
建立人工神经网络模型,入口函数为
该模型包含M个输入,并且神经网络模型的隐层中有N个节点。预先建立基于场景要义的序列集,对模型映射过程中输入层的两个限制因子和、输入层的加权系数、输出层的加权系数以及输出层的两个限制因子和进行训练,得到一系列基于场景的系数集合。
利用索引DI,最终计算出音频质量主观质量评价分数:
该分数为失真序列的最终主观得分。
实施例处理对原始测试集A中所有12条序列分别得到的最终主观得分,以平均值等级和标准偏差实现统计。
MUSHRA代表平均意见分,DMUSHRA代表损伤平均意见分。95%置信区间用上下限表示。条件C的MUSHRA分等于该条件下所有听音人对所有语料评分的平均值,即:
其中代表第t名听音人对条件C下的第l条语料的最终主观评分,i取1~12,j取1~4。公式中L代表测听语料中个数,原始测试集A中有12条序列,因此L=12,l取1~12。公式中T代表测听人数,T=12,t取1~12。条件C的得分标准差可以用下式计算:
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变换或变型,因此所有等同的技术方案,都落入本发明的保护范围。
Claims (2)
1.一种基于音频关注度的音频质量评价系统,其特征在于:包括关注音及背景音特征分离提取模块、主观评价分项得分模块和关注音主观评分模块,
所述关注音及背景音特征分离提取模块,用于根据输入的场景背景音类型信息和关注音类型信息,分别提取场景背景音的特征属性和关注音的特征属性,输出给主观评价分项得分模块;
所述主观评价分项得分模块,用于根据原始音频测试序列集、失真音频序列集和由关注音及背景音特征分离提取模块输入的特征属性,从场景背景音的各项特征属性分别给出分项主观得分,从关注音的各项特征属性分别给出分项主观得分,并输出到关注音主观评分模块;
所述关注音主观评分模块,用于根据由主观评价分项得分模块输入的分项主观得分得到单一的最终主观得分,并对最终主观得分进行数据统计处理;所述由主观评价分项得分模块输入的分项主观得分,包括从场景背景音的各项特征属性分别给出的分项主观得分和从关注音的各项特征属性分别给出的分项主观得分。
2.一种基于音频关注度的音频质量评价方法,其特征在于,包括以下步骤:
步骤1,根据场景选取作为参考的原始音频测试序列集,记为原始测试集A;
步骤2,对步骤1所得原始测试集A中的序列进行多种不同失真处理,得到失真音频序列集,记为失真序列集B,失真处理的种数记为n,原始测试集A中每一个序列分别对应失真序列集B中的n种失真序列;
步骤3,从原始测试集A当中选取一个序列ai,同时从失真序列集B中挑出所有由序列ai得到的失真序列b1(ai),b2(ai),.......,bn(ai);
步骤4,确定序列ai的场景背景音类型信息和关注音类型信息,场景背景音的类型记为br,关注音的类型记为attention;
步骤5,提取场景背景音和关注音的各自特征属性并分离,场景背景音的特征属性记为feature(br),关注音的特征属性记为feature(attention);
步骤6,根据步骤5获得的特征属性feature(br)和feature(attention),对失真序列b1(ai),b2(ai),.......,bn(ai)分别给出分项主观得分;
步骤7,根据对每一个失真序列bj(ai)的分项主观得分,得出最终主观得分sdg[bj(ai)],j取1~n;
步骤8,返回步骤3,从原始测试集A当中选取下一个序列,重复执行步骤3~7,直到对原始测试集A中所有序列处理完,对每次执行步骤7所得最终主观得分sdg[bj(ai)]进行数据统计处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101266846A CN102184733B (zh) | 2011-05-17 | 2011-05-17 | 基于音频关注度的音频质量评价系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101266846A CN102184733B (zh) | 2011-05-17 | 2011-05-17 | 基于音频关注度的音频质量评价系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102184733A CN102184733A (zh) | 2011-09-14 |
CN102184733B true CN102184733B (zh) | 2012-07-25 |
Family
ID=44570899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011101266846A Expired - Fee Related CN102184733B (zh) | 2011-05-17 | 2011-05-17 | 基于音频关注度的音频质量评价系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102184733B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102496369B (zh) * | 2011-12-23 | 2016-02-24 | 中国传媒大学 | 一种基于失真校正的压缩域音频质量客观评价方法 |
CN107103901B (zh) * | 2017-04-03 | 2019-12-24 | 浙江诺尔康神经电子科技股份有限公司 | 人工耳蜗声音场景识别系统和方法 |
TWI651718B (zh) | 2017-09-12 | 2019-02-21 | 華碩電腦股份有限公司 | 音訊處理方法及音訊處理裝置 |
CN107978343A (zh) * | 2017-11-02 | 2018-05-01 | 刘莉 | 电子病历的评价系统 |
CN109040778B (zh) * | 2018-09-12 | 2021-01-22 | 武汉轻工大学 | 视频封面的确定方法、用户设备、存储介质及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004199047A (ja) * | 2002-12-06 | 2004-07-15 | Nippon Telegr & Teleph Corp <Ntt> | 信号圧縮方法、装置、そのプログラムと記録媒体、信号検索方法、装置、プログラムとその記録媒体 |
CN101499279A (zh) * | 2009-03-06 | 2009-08-05 | 武汉大学 | 空间参数逐级精细的比特分配方法及其装置 |
CN101499300A (zh) * | 2009-03-06 | 2009-08-05 | 武汉大学 | 一种基于空间音频参数的音频关注度分析装置 |
CN101650947A (zh) * | 2009-09-17 | 2010-02-17 | 武汉大学 | 一种面向对象音频编解码方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4415232B2 (ja) * | 2000-10-12 | 2010-02-17 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム記録媒体 |
US7877252B2 (en) * | 2007-05-18 | 2011-01-25 | Stmicroelectronics S.R.L. | Automatic speech recognition method and apparatus, using non-linear envelope detection of signal power spectra |
-
2011
- 2011-05-17 CN CN2011101266846A patent/CN102184733B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004199047A (ja) * | 2002-12-06 | 2004-07-15 | Nippon Telegr & Teleph Corp <Ntt> | 信号圧縮方法、装置、そのプログラムと記録媒体、信号検索方法、装置、プログラムとその記録媒体 |
CN101499279A (zh) * | 2009-03-06 | 2009-08-05 | 武汉大学 | 空间参数逐级精细的比特分配方法及其装置 |
CN101499300A (zh) * | 2009-03-06 | 2009-08-05 | 武汉大学 | 一种基于空间音频参数的音频关注度分析装置 |
CN101650947A (zh) * | 2009-09-17 | 2010-02-17 | 武汉大学 | 一种面向对象音频编解码方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102184733A (zh) | 2011-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102184733B (zh) | 基于音频关注度的音频质量评价系统及方法 | |
Davies et al. | Perception of soundscapes: An interdisciplinary approach | |
CN108419091A (zh) | 一种基于机器学习的视频内容审核方法及装置 | |
US11786171B2 (en) | Method and system for articulation evaluation by fusing acoustic features and articulatory movement features | |
CN101933085B (zh) | 音频质量客观感知评估方法及其设备 | |
Zhang et al. | Effects of telephone transmission on the performance of formant-trajectory-based forensic voice comparison–female voices | |
CN110148394A (zh) | 歌声合成方法、装置、计算机设备及存储介质 | |
CN107293286A (zh) | 一种基于网络配音游戏的语音样本收集方法 | |
CN112259104A (zh) | 一种声纹识别模型的训练装置 | |
CN108206027A (zh) | 一种音频质量评价方法及系统 | |
Zhang et al. | Reliability of human-supervised formant-trajectory measurement for forensic voice comparison | |
Amin et al. | Glottal and vocal tract characteristics of voice impersonators | |
CN108898164A (zh) | 一种基于特征融合的鸟鸣自动识别方法 | |
Liu et al. | Categorical perception of intonation contrasts: Effects of listeners’ language background | |
CN108615536A (zh) | 基于麦克风阵列的时频联合特征乐器音质评价系统及方法 | |
CN106205635A (zh) | 语音处理方法及系统 | |
CN105825868A (zh) | 一种演唱者有效音域的提取方法 | |
Aharonson et al. | A real-time phoneme counting algorithm and application for speech rate monitoring | |
CN111554325B (zh) | 一种嗓音识别方法及系统 | |
CN114678039A (zh) | 一种基于深度学习的歌唱评价方法 | |
Allison et al. | Reliability of perceptual judgments of phonetic accuracy and hypernasality among speech-language pathologists for children with dysarthria | |
CN102231279A (zh) | 基于听觉关注度的音频质量客观评价系统及方法 | |
Falk et al. | Improving instrumental quality prediction performance for the Blizzard Challenge | |
JP2014007556A (ja) | 聴覚印象量推定装置及びそのプログラム | |
Bai et al. | Experimental analysis on auditory attention saliency calculation models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120725 Termination date: 20160517 |