CN102231279B - 基于听觉关注度的音频质量客观评价系统及方法 - Google Patents
基于听觉关注度的音频质量客观评价系统及方法 Download PDFInfo
- Publication number
- CN102231279B CN102231279B CN201110120250A CN201110120250A CN102231279B CN 102231279 B CN102231279 B CN 102231279B CN 201110120250 A CN201110120250 A CN 201110120250A CN 201110120250 A CN201110120250 A CN 201110120250A CN 102231279 B CN102231279 B CN 102231279B
- Authority
- CN
- China
- Prior art keywords
- signal
- hearing
- frequency
- characteristic parameters
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及基于听觉关注度的音频质量客观评价系统及方法,系统包括时频分析模块、听觉关注模块、底层声学特征参数计算模块、人耳声学掩蔽模型模块、听觉关注失真测度计算模块和认知模型模块,从听觉关注度图选择映射关系指导底层声学特征参数的计算,然后通过求取参考信号和待测信号频域信号的噪掩比得到待测信号的一组底层特征参数失真测度值,最后将参考信号和待测信号的噪掩比以及待测信号的一组底层特征参数失真测度值进行融合,得到的音频质量客观评价结果。本发明考虑了音频质量评价系统中听觉关注机制对评价结果的影响,能够使客观评价结果更符合人的听觉特性的,主客观评价结果相关性更高。
Description
技术领域
本发明涉及音频质量客观评价领域,尤其涉及基于听觉关注度的音频质量客观评价系统及方法。
背景技术
随着人们应用期望值的日渐提高,音频内容趋于多样化与复杂化。心理学研究表明人们在复杂声场环境中具有选择性的听觉关注机制,即人可以根据自己的心理主观感受选择自己感兴趣的声音,使自己关注的声音在人类听觉系统当中成为主导音。听觉关注机制是自顶向下(基于场景信息)和自底向上(基于声音显著度)两种机制交互作用的过程,传统基于声学掩蔽模型和底层声学显著性特征的音频客观质量评价方法,由于并未考虑场景信息和底层声学特征参数自上而下的关联问题,其评价结果与真实主观听觉感受存在较大差异。
发明内容
本发明的目的是提供基于听觉关注度的音频质量客观评价技术方案,使得评价结果更符合人的听觉特性。
为达到上述目的,本发明提供一种基于听觉关注度的音频质量客观评价系统,包括时频分析模块1、听觉关注模块2、底层声学特征参数计算模块3、人耳声学掩蔽模型模块4、听觉关注失真测度计算模块5及认知模型模块6,
所述时频分析模块1,用于将输入的参考信号的时域信号和待测信号的时域信号分别转换为频域信号,并将所获得的频域信号分两路输出,一路输出连接底层声学特征参数计算模块3,一路输出连接人耳声学掩蔽模型模块4;
所述听觉关注模块2,用于存储预先建立的听觉关注度图,所述听觉关注度图根据先验知识预先建立,是场景要义与底层声学特征参数之间的映射关系总和;当选择听觉关注度图中的某项映射关系时,相应所选择的映射关系分两路输出,一路输出给底层声学特征参数计算模块3,一路输出给认知模型模块6;
所述底层声学特征参数计算模块3,用于根据由听觉关注模块2输入的映射关系,从参考信号的时域信号、待测信号的时域信号以及由时频分析模块1输入的频域信号中,提取并计算得到参考信号的底层声学特征参数和待测信号的底层声学特征参数,并输出至听觉关注失真测度计算模块5;
所述人耳声学掩蔽模型模块4,用于根据时频分析模块1输入的频域信号,计算参考信号的总体噪掩比和待测信号的总体噪掩比,输出给认知模型模块6;
所述听觉关注失真测度计算模块5,根据由底层声学特征参数计算模块3所输入参考信号的底层声学特征参数和待测信号的底层声学特征参数,计算得到待测信号的一组底层声学特征参数失真测度值,输出给认知模型模块6;
所述认知模型模块6,用于根据由听觉关注模块2输入的映射关系,将由听觉关注失真测度计算模块5输入的待测信号的一组底层声学特征参数失真测度值与由人耳声学掩蔽模型模块4输入的参考信号的总体噪掩比和待测信号的总体噪掩比进行融合,得到最终单一的音频质量客观质量评价分数。
本发明还提供了相应基于听觉关注度的音频质量客观评价方法,包括以下步骤:步骤1,将参考信号的时域信号s1通过短时傅里叶变换,得到参考信号的频域信号将待测信号的时域信号s2通过短时傅里叶变换,得到待测信号的频域信号
步骤2,从预先建立的听觉关注度图M中选择某项映射关系,所述听觉关注度图M是场景要义与底层声学特征参数之间的映射关系总和;
步骤3,从参考信号的时域信号s1、待测信号的时域信号s2、参考信号的频域信号和待测信号的频域信中,提取和计算出步骤2中所选择映射关系相应的底层声学特征参数,得到参考信号的底层声学特征参数(x1,x2,...xm)和待测信号的底层声学特征参数(y1,y2,...ym),其中,m为步骤2中用户所选择映射关系相应的底层声学特征参数总个数;
步骤5,根据步骤3所得参考信号的底层声学特征参数(x1,x2,...xm)和待测信号的底层特征参(y1,y2,...ym)计算失真测度,得到待测信号的一组底层声学特征参数失真测度值(D1,D2,...Dm);
步骤6,根据步骤2所选映射关系,将步骤4所得总体噪掩比NMR1、NMR2和步骤5所得待测信号的一组底层声学特征参数失真测度值(D1,D2,...Dm)进行融合,得到最终单一的音频质量客观质量评价分数。
本发明的技术方案考虑了音频质量评价系统中听觉关注机制对评价结果的影响,能够使客观评价结果更符合人耳的听觉特性,主客观评价结果相关性更高。
附图说明
图1是本发明实施例的系统结构框图。
图2是本发明实施例的方法流程图。
具体实施方式
下面以具体实施例结合附图对本发明的技术方案作进一步说明:
参见图1,本发明实施例提供的基于听觉关注度的音频质量客观评价系统,包括时频分析模块1、听觉关注模块2、底层声学特征参数计算模块3、人耳声学掩蔽模型模块4、听觉关注失真测度计算模块5及认知模型模块6,具体实施时可以采用软件固化技术实现各模块。
所述时频分析模块1,用于将输入的参考信号的时域信号和待测信号的时域信号分别转换为频域信号,并将所获得的频域信号分两路输出,一路输出连接底层声学特征参数计算模块3,一路输出连接人耳声学掩蔽模型模块4。
所述听觉关注模块2,用于存储预先建立的听觉关注度图,所述听觉关注度图根据先验知识预先建立,是场景要义与底层声学特征参数(如带宽、谱包络、信噪比、基音、谐波等)之间的映射关系总和;当选择听觉关注度图中的某项映射关系时,相应所选择的映射关系分两路输出,一路输出给底层声学特征参数计算模块3,一路输出给认知模型模块6。听觉关注度图用于关联场景要义对应的底层声学特征参数,具体实施时,可以由用户根据情况选择听觉关注度图中的某项映射关系。例如将听觉关注度图中的各项映射关系分别给一个序号,做一个对话框,让用户选择关注音和背景音的类型,然后就可以得到序号,从而确定选择听觉关注度图中的某项映射关系。
所述底层声学特征参数计算模块3,用于根据由听觉关注模块2输入的映射关系,从参考信号的时域信号、待测信号的时域信号以及由时频分析模块1输入的频域信号中,提取并计算得到参考信号的底层声学特征参数和待测信号的底层声学特征参数,并将这两组底层声学特征参数输出至听觉关注失真测度计算模块5。
所述人耳声学掩蔽模型模块4,用于根据时频分析模块1输入的频域信号,计算参考信号的总体噪掩比和待测信号的总体噪掩比,输出给认知模型模块6。实施例的计算过程为,根据人耳的听觉掩蔽效应,对参考信号和待测信号的频域信号划分Bark带,计算出各Bark带掩蔽阈值和噪掩比,将总体噪掩比输出给认知模型模块6。
所述听觉关注失真测度计算模块5,根据由底层声学特征参数计算模块3所输入参考信号的底层声学特征参数和待测信号的底层声学特征参数,计算得到待测信号的一组底层声学特征参数失真测度值,输出给认知模型模块6。
所述认知模型模块6,用于根据由听觉关注模块2输入的映射关系,将由听觉关注失真测度计算模块5输入的待测信号的一组底层声学特征参数失真测度值与由人耳声学掩蔽模型模块4输入的参考信号的总体噪掩比和待测信号的总体噪掩比进行融合,得到最终单一的音频质量客观质量评价分数。本发明利用信息融合的思想生成单一的输出参数,得到最终的客观差异性得分,本领域称为ODG,Objective Difference Grade。具体融合实现可以采用现有技术,例如人工神经网络模型或者线性分析回归方法。实施例采用人工神经网络模型,预先根据场景要义建立相应的训练集序列,训练出一系列基于场景的加权值。通过根据听觉关注模块2输入的映射关系选择与场景对应的一组加权值,与计算得到的一组底层特征参数失真测度值和参考信号的总体噪掩比、待测信号的总体噪掩比经过映射融合,输出最终单一的音频质量客观评价得分。
参见图2,本发明实施例提供的基于听觉关注度的音频质量客观评价方法,可以采用计算机软件技术手段自动进行流程,具体包括以下步骤:
步骤1,将参考信号的时域信号s1通过短时傅里叶变换,得到参考信号的频域信号将待测信号的时域信号s2通过短时傅里叶变换,得到待测信号的频域信号实施例中,输入的参考信号的时域信号s1和待测信号的时域信号s2采样率为44.1kHz,通过短时傅里叶变换得到的频域信号和帧长为2048个点。
步骤2,从预先建立的听觉关注度图M中选择某项映射关系,所述听觉关注度图M是场景要义与底层声学特征参数之间的映射关系总和。实施例建立的听觉关注度图M如下表所示:
例如,序号00对应的是关注音为语音且环境背景为语音,序号01对应的是关注音为语音且环境背景为音乐,序号02对应的是关注音为语音且环境背景为直流噪声。根据场景要义,如果得到的关注音为语音,环境背景为音乐,那么选择到序号01的映射关系。依据先验知识建立的听觉关注度图M中,序号01的映射关系中所选取表征语音的底层声学特征参数为带宽(50-4000Hz)、谱包络(LP分析)等,选取表征音乐的底层声学特征参数为带宽(50-20000Hz)、基音(Pitch)、谐波(Harmonic)、谱包络(LP分析)、华丽音域(高音萨克管250-10000Hz)等。在时域信号中选取帧长为256点,采用LP分析方法就得到语音的谱包络信息。基音周期的提取可采用基于短时自相关的开环基音搜索算法提取,谐波为基音倍频。
步骤3,从参考信号的时域信号s1、待测信号的时域信号s2、参考信号的频域信号和待测信号的频域信中,提取和计算出步骤2中所选择映射关系相应的底层声学特征参数,得到参考信号的底层声学特征参数(x1,x2,...xm)和待测信号的底层声学特征参数(y1,y2,...ym),其中,m为步骤2中用户所选择映射关系相应的底层声学特征参数总个数。具体提取和计算各底层声学特征参数为现有技术,本发明不予赘述。
其中z为Bark带个数,f为人类听觉可闻范围:80Hz-18000Hz;arsinh()是公知函数。Zwicker and Feldtkeller在1967年根据人耳听觉特性提出可以将频率划分为若干个临界频带,以及Bark域测度,规定了频率映射到Bark域的规则。具体实现从频域到Bark域的映射属于现有技术。
根据现有的MPEG标准中心理声学模型II,通过各个Bark域的频域信号,可计算出每帧参考信号中每一个Bark带的掩蔽阈值MASK1(k,n)和每帧待测信号中每一个Bark带的掩蔽阈值MASK2(k,n),其中k为Bark带数,n为帧数。在步骤1进行时频变换时,选取时域信号的帧长为2048个点,一共得到N帧信号,对每一帧信号变换到频域,再对该帧的频域信号划分Bark带,得到Z个Bark带,(k,n)表示第n帧的第k个Bark带,k取0~Z-1,n取0~N-1。
再将得到的噪掩比NMR1(n)和NMR2(n)分别求线性平均,公式如下
步骤5,根据步骤3所得参考信号的底层声学特征参数(x1,x2,...xm)和待测信号的底层特征参(y1,y2,...ym)计算失真测度,得到待测信号的一组底层声学特征参数失真测度值(D1,D2,...Dm)。
具体实施时,从(x1,y1)得到D1,从(x2,y2)得到D2…从(xm,ym)得到Dm,可参考以下公式
其中,M取值1~m。
步骤6,根据步骤2所选映射关系,将步骤4所得总体噪掩比NMR1、NMR2和步骤5所得待测信号的一组底层声学特征参数失真测度值(D1,D2,...Dm)进行融合,得到最终单一的音频质量客观质量评价分数。
实施例通过运用人工神经网络模型实现融合,具体实施可参见相关现有技术,基本过程如下:
建立人工神经网络模型,入口函数为
该模型包含I个输入,并且神经网络模型的隐层中有J个节点。预先建立基于场景要义的序列集,对模型映射过程中输入层的两个限制因子amin[i]和amax[i]、输入层的加权系数wα[i]输出层的加权系数wβ[j]以及输出层的两个限制因子bmin和bmax进行训练,得到一系列基于场景的系数集合。
将总体噪掩比NMR1、NMR2和底层特征参数失真测度值(D1,D2,...Dm),共I(I=2+m)个参数作为神经网络模型的输入a[i]输入给神经网络模型,根据步骤2从听觉关注度图M所选映射关系指导神经网络选择与场景相对应的一组系数,映射到失真索引(Distortion Index,DI):
其中i取0~I-1,j取0~J-1。
利用失真索引DI,最终计算出音频质量客观质量评价分数:
ODG=bmin+(bmax-bmin)·sig(DI)。
该分数的高低客观表示音频质量的好坏。
Claims (2)
1.一种基于听觉关注度的音频质量客观评价系统,其特征在于:包括时频分析模块(1)、听觉关注模块(2)、底层声学特征参数计算模块(3)、人耳声学掩蔽模型模块(4)、听觉关注失真测度计算模块(5)及认知模型模块(6),
所述时频分析模块(1),用于将输入的参考信号的时域信号和待测信号的时域信号分别转换为频域信号,并将所获得的频域信号分两路输出,一路参考信号的频域信号和待测信号的频域信号输出连接底层声学特征参数计算模块(3),一路参考信号的频域信号和待测信号的频域信号输出连接人耳声学掩蔽模型模块(4);
所述听觉关注模块(2),用于存储预先建立的听觉关注度图,所述听觉关注度图根据先验知识预先建立,是场景要义与底层声学特征参数之间的映射关系总和;当选择听觉关注度图中的某项映射关系时,相应所选择的映射关系分两路输出,一路输出给底层声学特征参数计算模块(3),一路输出给认知模型模块(6);
所述底层声学特征参数计算模块(3),用于根据由听觉关注模块(2)输入的映射关系,从参考信号的时域信号、待测信号的时域信号以及由时频分析模块(1)输入的频域信号中,提取并计算得到参考信号的底层声学特征参数和待测信号的底层声学特征参数,并输出至听觉关注失真测度计算模块(5);
所述人耳声学掩蔽模型模块(4),用于根据时频分析模块(1)输入的频域信号,计算参考信号的总体噪掩比和待测信号的总体噪掩比,输出给认知模型模块(6);
所述听觉关注失真测度计算模块(5),根据由底层声学特征参数计算模块(3)所输入参考信号的底层声学特征参数和待测信号的底层声学特征参数,计算得到待测信号的一组底层声学特征参数失真测度值,输出给认知模型模块(6);
所述认知模型模块(6),用于根据由听觉关注模块(2)输入的映射关系,将由听觉关注失真测度计算模块(5)输入的待测信号的一组底层声学特征参数失真测度值与由人耳声学掩蔽模型模块(4)输入的参考信号的总体噪掩比和待测信号的总体噪掩比进行融合,得到最终单一的音频质量客观质量评价分数。
2.一种基于听觉关注度的音频质量客观评价方法,其特征在于,包括以下步骤:
步骤2,从预先建立的听觉关注度图M中选择某项映射关系,所述听觉关注度图M是场景要义与底层声学特征参数之间的映射关系总和;
步骤3,从参考信号的时域信号s1、待测信号的时域信号s2、参考信号的频域信号和待测信号的频域信中,提取和计算出步骤2中所选择映射关系相应的底层声学特征参数,得到参考信号的底层声学特征参数(x1,x2,...xm)和待测信号的底层声学特征参数(y1,y2,...ym),其中,m为步骤2中用户所选择映射关系相应的底层声学特征参数总个数;
步骤5,根据步骤3所得参考信号的底层声学特征参数(x1,x2,...xm)和待测信号的底层特征参数(y1,y2,...ym)计算失真测度,得到待测信号的一组底层声学特征参数失真测度值(D1,D2,...Dm);
步骤6,根据步骤2所选映射关系,将步骤4所得总体噪掩比NMR1、NMR2和步骤5所得待测信号的一组底层声学特征参数失真测度值(D1,D2,...Dm)进行融合,得到最终单一的音频质量客观质量评价分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110120250A CN102231279B (zh) | 2011-05-11 | 2011-05-11 | 基于听觉关注度的音频质量客观评价系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110120250A CN102231279B (zh) | 2011-05-11 | 2011-05-11 | 基于听觉关注度的音频质量客观评价系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102231279A CN102231279A (zh) | 2011-11-02 |
CN102231279B true CN102231279B (zh) | 2012-09-26 |
Family
ID=44843839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110120250A Expired - Fee Related CN102231279B (zh) | 2011-05-11 | 2011-05-11 | 基于听觉关注度的音频质量客观评价系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102231279B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102496372A (zh) * | 2011-12-15 | 2012-06-13 | 中国传媒大学 | 一种基于非线性参数拟合的低码率音频质量客观评价方法 |
CN102664017B (zh) * | 2012-04-25 | 2013-05-08 | 武汉大学 | 一种3d音频质量客观评价方法 |
CN109300481B (zh) * | 2018-10-19 | 2022-01-11 | 武汉轻工大学 | 基于信息熵及时间趋势分析的音频关注度计算方法及系统 |
CN113450780B (zh) * | 2021-06-16 | 2023-02-24 | 武汉大学 | 一种听觉感知响度空间Lombard效应分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1538667A (zh) * | 2003-10-24 | 2004-10-20 | 武汉大学 | 一种宽频带语音质量客观评价方法 |
CN101499300A (zh) * | 2009-03-06 | 2009-08-05 | 武汉大学 | 一种基于空间音频参数的音频关注度分析装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2894707A1 (fr) * | 2005-12-09 | 2007-06-15 | France Telecom | Procede de mesure de la qualite percue d'un signal audio degrade par la presence de bruit |
US8467893B2 (en) * | 2008-01-14 | 2013-06-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Objective measurement of audio quality |
FR2944640A1 (fr) * | 2009-04-17 | 2010-10-22 | France Telecom | Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal. |
-
2011
- 2011-05-11 CN CN201110120250A patent/CN102231279B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1538667A (zh) * | 2003-10-24 | 2004-10-20 | 武汉大学 | 一种宽频带语音质量客观评价方法 |
CN101499300A (zh) * | 2009-03-06 | 2009-08-05 | 武汉大学 | 一种基于空间音频参数的音频关注度分析装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102231279A (zh) | 2011-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Goehring et al. | Using recurrent neural networks to improve the perception of speech in non-stationary noise by people with cochlear implants | |
CN102664017B (zh) | 一种3d音频质量客观评价方法 | |
CN110459241B (zh) | 一种用于语音特征的提取方法和系统 | |
CN103456312B (zh) | 一种基于计算听觉场景分析的单通道语音盲分离方法 | |
CN106919662A (zh) | 一种音乐识别方法及系统 | |
CN104183245A (zh) | 一种演唱者音色相似的歌星推荐方法与装置 | |
CN110322900A (zh) | 一种语音信号特征融合的方法 | |
CN112992121B (zh) | 基于注意力残差学习的语音增强方法 | |
CN102231279B (zh) | 基于听觉关注度的音频质量客观评价系统及方法 | |
CN101933085A (zh) | 音频质量的客观测量 | |
CN106024010A (zh) | 一种基于共振峰曲线的语音信号动态特征提取方法 | |
CN101527141A (zh) | 基于径向基神经网络的耳语音转换为正常语音的方法 | |
CN103258539A (zh) | 一种语音信号特性的变换方法和装置 | |
CN107274887A (zh) | 基于融合特征mgfcc的说话人二次特征提取方法 | |
CN103377656A (zh) | 一种音频文件的五音分析方法、播放器及电子设备 | |
CN106997765A (zh) | 人声音色的定量表征方法 | |
CN108615536A (zh) | 基于麦克风阵列的时频联合特征乐器音质评价系统及方法 | |
CN104778948A (zh) | 一种基于弯折倒谱特征的抗噪语音识别方法 | |
CN106205635A (zh) | 语音处理方法及系统 | |
CN103559893B (zh) | 一种水下目标gammachirp倒谱系数听觉特征提取方法 | |
CN101441868B (zh) | 基于特征转换规则的汉语耳语音向自然语音实时转换方法 | |
Nazarov et al. | Technology is getting rid of the noise in speech perception | |
CN103886859A (zh) | 基于一对多码书映射的语音转换方法 | |
Dai et al. | An improved model of masking effects for robust speech recognition system | |
Xiaomei et al. | Bispectral feature speech intelligibility assessment metric based on auditory model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120926 Termination date: 20160511 |