CN102664017A - 一种3d音频质量客观评价方法 - Google Patents

一种3d音频质量客观评价方法 Download PDF

Info

Publication number
CN102664017A
CN102664017A CN2012101253446A CN201210125344A CN102664017A CN 102664017 A CN102664017 A CN 102664017A CN 2012101253446 A CN2012101253446 A CN 2012101253446A CN 201210125344 A CN201210125344 A CN 201210125344A CN 102664017 A CN102664017 A CN 102664017A
Authority
CN
China
Prior art keywords
signal
measured signal
sound field
features parameter
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101253446A
Other languages
English (en)
Other versions
CN102664017B (zh
Inventor
胡瑞敏
杨玉红
李登实
成鸿飞
余洪江
赵云
翟晴
高丽
王松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN2012101253446A priority Critical patent/CN102664017B/zh
Publication of CN102664017A publication Critical patent/CN102664017A/zh
Application granted granted Critical
Publication of CN102664017B publication Critical patent/CN102664017B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明是一种3D音频质量客观评价方法,经过双耳合成后,分别提取多声道信号的音色感知特征参数、水平声场感知特征参数和高度声场感知特征参数这三种底层声学特征参数,最后通过3D声场心理认知模型的处理以达到拟合主观评价的结果,从而实现客观评价方法与主观评价方法的最大相关。本方法考虑了双耳对三维空间内的声源信息的音色及声场的感知特征参数,客观评价结果更接近三维感知声场的主观评价得分。

Description

一种3D音频质量客观评价方法
技术领域
本发明涉及语音音频质量客观评测领域,尤其涉及3D音频和空间音频质量客观评价方法优化。
背景技术
人类的听觉中,除了对声音的响度、音调和音色等主观属性的感觉外,还包括对声音的空间听觉,也就是对声音空间属性或特征的主观感觉,3D音频就是一种强调了人耳对声音的空间属性主观感受的音频信号。随着3D音频在多媒体领域和娱乐产业中的广泛应用,如何评价3D音频设备的听音感受和音频质量就成了一个亟待关注的研究点。
目前已经有许多音频系统性能评价方法,大致可分为主观和客观评价两大类。ITU组织针对二维环绕声效评价早在1996年和2003年发布了ITU-RBS.1116-1和BS.1534-1两种宽带音频质量主观评价标准。随后,NHK针对其22.2多声道系统在2006年提出了基于语义区分的三维感知声场主观评价方法。
由于主观评价是以人作为主体直接参与评价,其评价结果相对更直接、更合理。传统的音频质量主观评价方法比较典型的有平均意见得分(Mean Opinion Score:MOS)评价方法,MOS评价方法是用五个等级来评价音频质量等级:优(5分)、良(4分)、一般(3分)、差(2分)、坏(1分)。但是主观评价的主要问题是耗时费力,代价大。这使得研究者寻找一种通过建立预测人感知音频质量的模型和方法进行音频质量的客观评价,其结果应该与主观听觉测试越接近越好。
目前国际主流上的音频质量客观评价方法是ITU-R BS.1387-1(PEAQ),PEAQ客观评价方法是ITU综合已有的六种评价方法:Disturbance Index(DIX),Noise-to-Mask Ratio(NMR),Perceptual Audio Quality Measure(PAQM),Perceptual Evaluation(PERCEVAL),PerceptualObjective Measure(POM)and The Toolbox Approach后提出的一项针对单声道的音频信号的客观评价方法。根据ITU-RBS.562标准将音频质量等级以5级递减表示:无法感知(5分)、可感知但不恼人(4分)、轻微恼人的(3分)、恼人的(2分)、非常恼人的(1分)。则通过参考信号和待测信号评分相减得到客观评价得分ODG,分值范围为0到-4之间。PEAQ在评价音频质量的音色感知声学属性上与主观评价相近,但是PEAQ只能对单声道信号进行客观评价,不能表征3D音频的空间感知特征参数。
发明内容
本发明的目的是提供3D音频质量客观评价技术方案,使得客观评价的结果更符合人对3D音频的主观感知效果。
基于以上目的,本发明提供一种3D音频质量客观评价方法,包含以下步骤:
步骤1,将多声道信号的参考序列下混得到参考信号的双耳合成信号,将多声道信号的测试序列下混得到待测信号的双耳合成信号;
步骤2,根据步骤1所得参考信号的双耳合成信号和待测信号的双耳合成信号,计算得到待测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数;
步骤3,随机选取若干组步骤2所得待测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数作为3D声场心理认知模型的输入,以预设的相应主观评价分数作为3D声场心理认知模型的输出,经过训练得到3D声场心理认知模型,将步骤2所得其他待测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数输入训练后的3D声场心理认知模型,得到音频质量客观评价结果。
而且,在步骤1中,采用头相关传输函数实现下混,得到双耳合成信号。
而且,采用ITU-R BS.1387-1标准的感知音频质量客观评价模块实现计算待测信号的音色感知特征参数,包括如下步骤,
步骤1-1,通过FFT变换将双耳合成信号变换为频域信号,对频域信号计算平方幅值得到能量信号,模拟人外耳和中耳听觉效应对能量信号进行滤波处理,得到滤波后的能量信号;
步骤1-2,将滤波后的能量信号进行临界带分组,得到临界带分组信号;所述临界带分组处理模拟了人耳基底膜对不同频带信号的响应差异;
步骤1-3,根据心理声学理论对临界带分组信号进行临界带扩展得到激励样本,并计算得到调制样本;
步骤1-4,对激励样本经过时域和频域平滑处理,然后通过电平和模式调整,得到频谱适应样本,并计算掩蔽阈值;
步骤1-5,根据上述四个步骤的计算结果计算每帧音色感知特征参数值,最后通过平均计算得到待测信号的音色感知特征参数。
而且,所述待测信号的水平声场感知特征参数包括双耳声级差异、双耳时间差异和双耳互相关系数,计算水平声场感知特征参数包括如下步骤,
步骤2-1,通过FFT变换将双耳合成信号变换为频域信号,将参考信号和待测信号的频域信号通过一个Gammatone滤波器组划分为24个频段的巴克带,模拟外耳和中耳滤波对划分的巴克带进行加权,得到参考信号的激励模式和待测信号的激励模式;
步骤2-2,计算参考信号的激励模式和待测信号的激励模式的归一化互相关函数,得到参考信号和待测信号之间的双耳时间差异、参考信号和待测信号之间的双耳互相关系数,通过计算参考信号的激励模式和待测信号的激励模式的声强比值的对数值,得到参考信号和待测信号之间的双耳声级差异。
而且,所述待测信号的高度感知特征参数包括高度角,计算高度感知特征参数包括如下步骤,
步骤3-1,分离待测信号的双耳合成信号的左右声道,并分别进行快速傅里叶变换,得到待测信号的频谱信号;
步骤3-2,将待测信号的频谱信号通过一个高斯滤波器滤波,得到滤波后的频谱信号;
步骤3-3,在待测信号的滤波后的频谱信号中检测频谱的波峰和波谷,将出现频谱的波峰波谷的位置和头相关传输函数数据库中的不同高度角的波峰波谷位置进行对比,估计得到待测信号的高度角。
而且,所述3D声场心理认知模型使用BP神经网络,在3D声场心理认知模型中BP神经网络使用最速下降法。
本发明技术方案评价了3D音频质量多个属性,包括整体音频质量(BAQ),音色保真度(TF),3维前方空间保真度(3DFSF),3维环绕空间保真度(3DSSF)和3维高度空间保真度(3DESF),其中通过音色感知模型的PEAQ测度的MOVs值用来表征整体音频质量(GAQ)和音色保真度(TF),而通过水平声场感知模型计算的水平声场感知特征参数双耳互相关系数(Inter-Aural Cross-Correlation:IACC),双耳时间差异(Interaural Time Difference:ITD)和双耳声级差异(Interaural Time Difference:ITD)作为表征3维前方空间保真度(3DFSF)和3维环绕空间保真度(3DSSF)的评测参数,通过高度感知模型计算的高度角θ作为评价3维高度空间保真度(3DESF)的评价参数。
附图说明
图1是本发明实施例的流程图。
图2是本发明实施例的音色感知模型框图。
图3是本发明实施例的水平声场感知模型结构框图。
图4是本发明实施例的高度感知模型结构框图。
图5是本发明实施例的3D声场心理认知模型结构框图。
具体实施方式
以下结合附图和实施例详细说明本发明技术方案。
本发明实施例提供的方法包括以下步骤,流程图参见图1:
步骤1,将多声道信号的参考序列下混得到参考信号的双耳合成信号,将多声道信号的测试序列下混得到待测信号的双耳合成信号。可以采用头相关传输函数实现下混,得到双耳合成信号。
实施例在步骤1将三维重建的多声道信号的参考序列和测试序列经过双耳信号模拟发生器,双耳信号表示各声道的输入与对应扬声器位置的头相关冲击响应(Head Related ImpulseResponses:HRIRs)卷积模拟生成对应双耳接收的两路信号。设N为声道总数,参考和待测信号双耳信号合成如式(1)所示。
L ^ TestH L ^ RefH R ^ TestH R ^ RefH = H ch 1 _ l H ch 2 _ l L H chN _ l H ch 1 _ r H ch 2 _ r H chN _ r ch 1 test ch 1 Ref ch 2 test ch 2 Ref M M chN test chN Ref . . . ( 1 )
其中Hch1_l
Figure BDA0000157129090000042
表示第1至N个声道信号抵达左耳的头相关传输函数(HeadRelated Transfer Function:HRTF),Hch1_r表示第1至N个声道信号抵达右耳的头相关传输函数。ch1test,ch2test...chNtest表示第1至N个声道待测信号的双耳合成信号,ch1Ref,ch2Ref...chNRef表示第1至N个声道参考信号的双耳合成信号,
Figure BDA0000157129090000045
分别表示左右耳的输入信号,上式中头相关冲击响应表示时域而头相关传输函数表示频域。其中,
Figure BDA0000157129090000046
分别表示左耳的输入待测信号和输入参考信号、
Figure BDA0000157129090000048
Figure BDA0000157129090000049
分别表示右耳的输入待测信号输入的参考信号。
不失一般性,在下文中,将上述双耳合成信号ch1test~chNtest和ch1ref~chNref分别用待测信号的双耳合成信号stest和参考信号的双耳合成信号sref表示。
步骤2,根据步骤1所得参考信号的双耳合成信号和待测信号的双耳合成信号,计算得到待测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数。
实施例将计算音色感知特征参数、水平声场感知特征参数、高度感知特征参数的具体过程分别实现为音色感知模型、水平声场感知模型和高度感知模型。用步骤1所得用待测信号的双耳合成信号stest和参考信号的双耳合成信号sref分别作为音色感知模型、水平声场感知模型和高度感知模型的输入,即可输出得到相应的音色感知特征参数、水平声场感知特征参数、高度感知特征参数。
图2说明本发明所述方法音色感知模型框图,参考信号和待测信号的双耳合成信号stest和sref输入音色感知模型,实施例中音色感知模型采用ITU-RBS.1387-1标准的PEAQ模块来评价,输出10个表征音频音色的特征参数MOVs,该模型是基于FFT的人耳模型,具体实现为现有技术。
为便于实施参考起见,提供实施例计算音色感知特征参数的具体步骤如下所述:
步骤1-1,时频变换,即通过FFT变换将双耳合成信号变换为频域信号;然后进行外耳和中耳滤波。
参考信号的双耳合成信号sref为时域信号,将参考信号的双耳合成信号sref通过短时傅里叶变换,得到参考信号的频域信号Sref;同样的,待测信号的双耳合成信号stesf为时域信号,将待测信号的双耳合成信号stest通过短时傅里叶变换,得到待测信号的频域信号Stest。实施例中输入的参考信号的时域信号和待测信号的时域信号采样率为Fs=48kHz,通过短时傅里叶变换得到的频域信号,帧长为NF=2048个点。下文为便于用公式描述,将参考信号和待测信号的频域信号都以序列的方式表示为F[kf,n1],其中n1表示信号帧数,kf表示信号频率(下同)。
实施例进行的外耳和中耳滤波,包括对频域信号计算平方幅值得到能量信号,模拟人外耳和中耳听觉效应对能量信号进行滤波处理。
外耳和中耳的频率响应通过传输函数来模拟,得到Sref和Stest的外耳加权FFT输出Fe[kf,n1],即滤波处理后的能量信号。外耳传输函数W(f)/dB如下:
W ( f ) / dB = - 0.6 · 3.64 · ( f 1000 ) - 0.8 + 6.5 · e 0.6 · ( f 1000 - 3.3 ) 2 - 10 - 3 · ( f 1000 ) 3.6 - - - ( 2 )
式中,频率f的单位是HZ,外耳和中耳的传输函数表示了外耳和中耳对声音的衰减和滤波过程。便于计算缘故,用W[kf]表示窗函数对应于输入信号的序列表示方式,则需要对W(f)进行如下式的转换:
W [ k f ] = W ( kF s N F ) . . . ( 3 )
上式中,
Figure BDA0000157129090000061
k为采样点下标,则有参考信号和待测信号的外耳加权输出Fe[kf,n1]为
F e [ k f , n 1 ] = | F [ k f , n 1 ] | × 10 W [ k f } 20 . . . ( 4 )
步骤1-2,临界带分组,包括将步骤1-1所得滤波后的能量信号进行临界带分组,得到临界带分组信号;所述临界带分组处理模拟了人耳基底膜对不同频带信号的响应差异。
本步骤为模拟内耳基底膜的频率特性,频谱被分配到数个互不交叠的子带中,首先将参考信号和待测信号的频域信号建立从频域到Bark域的映射:
Z 1 / Bark = 7 · ar sinh ( f / Hz 650 ) . . . ( 5 )
其中Z1为Bark带个数,f为人类听觉可闻范围:80Hz--18000Hz,ar sinh(.)是反正弦函数。Zwicker and Feldtkeller在1967年根据认为听觉特性提出可以将频率划分为活干个临界频带,以及Bark域测度,规定了频率映射到Bark域的规则。所谓临界带分组其实是把DFT能量向量分组对应到临界带,其中能量向量用DFT频域值的平方幅值来表示,这是一种映射关系。
根据公式Pe[k1,n1]=|Fe[kf,n1]|2求得外耳加权FFT输出的能量值,这个过程得到每个频带的子带频谱能量值Pe[k1,n1]。
实施例还添加内部噪声,给每个子带添加一个频率偏移量PThres,第k1个子带的频率偏移量记为PThres[k1],得到音高样本Pp[k1,n1],作为临界带分组信号。计算公式如下:
P Thres [ k 1 ] = 10 0.4 - 0.364 × ( f c [ k 1 ] 1000 ) - 0.8 . . . ( 6 )
P p [ k 1 , n 1 ] = P e [ k 1 , n 1 ] + P Thres [ k 1 ] - - - ( 7 )
其中,fc[k1]表示第k1个子带的中心频率。
步骤1-3,时域和频域扩展,根据心理声学理论对步骤1-2所得临界带分组信号进行临界带扩展得到激励样本,并计算得到调制样本。
频域扩展在Bark域上进行。将音高样本Pp[k1,n1]经由一个扩展函数分配至整个听域空间,那么第k1个子带的能量就是各个子带能力在该子带贡献的加和;引入归一化因子,消除扩展函数在各个子带中引入的增益,得到未拖尾的激励样本Eunsmeared[k1,n1],根据未拖尾的激励样本Eunsmeared[k1,n1]计算调制能量和包络大小得到调制样本。为了模拟向前掩蔽,将各个子带的能量在时间上低通滤波器平滑,得到激励样本E[k1,n1]。
步骤1-4,激励样本处理,包括对激励样本经过时域和频域平滑处理,然后通过电平和模式调整,得到频谱适应样本,并计算掩蔽阈值。
本步骤要对参考信号和待测信号的激励样本进行电平适应和模式适应处理。为补偿参考信号和待测信号的响度差异和线性失真,待测信号和参考信号的平均电平要适应调整。适应分为电平适应和模式适应两个步骤,最终获得参考信号和待测信号的频谱适应样本。
其次是调制计算部分,首先根据未拖尾的激励样本Eunsmeared[k1,n1]计算平均响度
Figure BDA0000157129090000071
和计算简化响度的差值
Figure BDA0000157129090000072
计算公式如下:
E ‾ der [ k 1 , n 1 ] = a · E ‾ der [ k 1 , n 1 - 1 ] + ( 1 - a ) · F s N F / 2 · | E [ k 1 , n 1 ] 0.3 - E [ k 1 , n 1 - 1 ] 0.3 | . . . ( 8 )
E ‾ [ k 1 , n 1 ] = a · E ‾ [ k 1 , n 1 - 1 ] + ( 1 - a ) · E [ k 1 , n 1 ] 0.3 . . . ( 9 )
式中
Figure BDA0000157129090000075
τ表示时间常数,E[k1,n1]表示激励样本模式。
然后可得到各子带包络,子带包络表示每一个滤波通道的包络大小,计算公式如下:
Figure BDA0000157129090000076
子带包络将用于PEAQ模型中的MOVs计算。
最后是响度计算部分,在响度计算中先是通过计算每帧音频信号的响度,最后求平均得到总响度,响度计算还包括噪声响度。
步骤1-5,模型输出参数(MOVs)的计算,包括根据上述四个步骤的计算结果(即参考信号和待测信号的激励样本、调制样本、频谱适应样本和子带包络、响度值、噪声值等参数)计算每帧音色感知特征参数值,最后通过平均计算得到待测信号的音色感知特征参数。
根据实验结果,本发明实施例使用的PEAQ模块提取的共有10个MOVs作为音色感知特征参数,即音色感知保真度的底层声学参数。这10个评价3D音频的音色感知特征参数有助于拟合主观测试结果,分别为:噪掩比TotalNMR、加窗后的调制差异WinModDiff、平均调制差异AvgModDiff、响度失真RmsNoiseLoud、参考信号带宽BandwidthRef、待测信号带宽Bandwidthtest、平均块失真ADB、差错信号谐波结构EHS、最大检测概率MFPD和相对干扰帧RelDisFrames。
对于每一个MOVs的详细计算过程为现有技术,可参考ITU的BS.1387-1标准。在本实施例中分别以平均调制差异AvgModDiff计算,待测信号带宽Bandwidthtest和参考信号带宽BandwidthRef为例说明MOVs的计算过程。
待测信号平均调制差异AvgModDiff,也称为暂态包络差异,也即是调制差异是通过计算每个巴克带滤波通道的调制差异也即是本地调制差异(local modulation differences),并求平均可得,如下式所示:
ModDiff [ k 1 , n 1 ] = w · | Mod test [ k 1 , n 1 ] - Mod Ref [ k 1 , n 1 ] offset + Mod Ref [ k 1 , n 1 ]
.........(10)
w = 1.0 | Mod test [ k 1 , n 1 ] > Mod Ref [ k 1 , n 1 ] w = 0.1 | Mod test [ k 1 , n 1 ] < Mod Ref [ k 1 , n 1 ]
其中,Modtest[k1,n1]和ModRef[k1,n1]是在步骤1-4具体计算中已经提到的待测信号和参考信号的子带包络,其中,offset表示偏移量,一般设定为0.01,w是加权因子,根据参考信号和待测信号子带包络相对大小而确定。那么对瞬态调制差异求平均即可得到所求平均调制差异:
ModDiff [ n 1 ] = 100 Z 1 &Sigma; k 1 = 0 Z 1 - 1 ModDiff [ k 1 , n 1 ] . . . ( 11 )
待测信号带宽Bandwidthtest、参考信号带宽BandwidthRef参数由参考信号和待测信号的FFT输出(以dB为单位)计算而来。具体方法为:
(1)在待测信号中,找出21.6kHz以上信号的最大幅值(单位dB)作为参考门限。
(2)在参考信号中,从21.6kHz开始往低频搜索,找到第一个超过参考门限10dB的样点,记下此样点的索引号KR[n1],作为参考信号的带宽。
(3)在待测信号中,从上步记下的索引KR[n1]号开始往低频搜索,找到第一个超过参考门限5dB的样点,记下此时的索引号为KR[n1],作为待测信号的带宽。
取KR[n1]的时域平均即为两个输入信号的最终带宽,上面计算的是瞬态的带宽,对所有帧求平均后,公式如下:
W T = 1 N 1 &Sigma; n = 0 N 1 - 1 K R [ n 1 ] . . . ( 12 )
WT表示信号整体平均带宽,N1表示帧数,当然,这里要注意,如果通过上述方法计算的带宽没有超过8.1khz,则忽略该帧数据的带宽。
图3是本发明实施例中的水平声场感知模型框图,参考信号和待测信号的双耳合成信号stest和sref输入环绕双耳模型,经过滤波和频带扩展输出人耳基底膜的激励模式;然后根据认知模型得到水平声场感知特征参数。
为便于实施参考起见,提供实施例计算水平声场感知特征参数的具体步骤如下所述:
步骤2-1,通过FFT变换将参考信号和待测信号的双耳合成信号变换为频域信号,将参考信号和待测信号的频域信号通过一个Gammatone滤波器组划分为24个频段的巴克带,模拟外耳和中耳滤波对划分的巴克带进行加权,得到参考信号的激励模式和待测信号的激励模式。
本发明实施例使用4阶的Patterson-Holdsworth滤波器组(也称为Gammatone滤波器组),与PEAQ中的基于FFT的人耳感知模型相比,Gammatone滤波器组能很好地模拟听觉实验中的生理数据,能够体现基底膜尖锐的滤波特性。考虑到Gammatone滤波器组与人耳基底膜两者在冲激响应、幅频特性等方面的相似性,可以采用一组中心频率呈对数均匀分布的Gammatone滤波器组来模拟基底膜。
Gammatone滤波器用一个因果的冲激响应函数Gammatone函数来描述其滤波器特性,其时域表示如式13所示:
g(t)=Bntn-1e-2πBtcos(2πfot+φ)u(t).........(13)
其中:g(t)是Gammatone函数缩写,t是时间变量,φ表示Gammatone滤波器的初始相位。t<0时u(t)=0,t>0时u(t)=1,n为Gammatone滤波器的阶数,参数B=b×ERB(fo),b1=1.019是为了让Gammatone函数更好地与生理数据相符而引入的参数,ERB(fo)为Gammatone滤波器的等价矩形带宽,它同Gammatone滤波器中心频率fo的关系是:
ERB(fo)=24.7+0.108fo.........(14)
不同的特征频率对应不同的Gammatone滤波器中心频率,这个关系可以把不同Gammatone滤波器和不同的基底膜位置对应起来,从而实现对基底膜每个位置质点运动状态的仿真。使用Gammatone滤波器组对双耳合成信号进行滤波,则输出结果为待测信号的激励模式和参考信号的激励模式,可以分别用
Figure BDA0000157129090000091
表示,式中k2和n2分别表示Gammatone滤波器组频带和时间的索引。
步骤2-2,计算参考信号的激励模式和待测信号的激励模式的归一化互相关函数,得到参考信号和待测信号之间的双耳时间差异、参考信号和待测信号之间的双耳互相关系数,通过计算参考信号的激励模式和待测信号的激励模式的声强比值的对数值,得到参考信号和待测信号之间的双耳声级差异。
所述待测信号和参考信号的激励模式输入认知模型,得到表征水平声场感知特征参数:双耳声级差异(ILD),双耳时间差异(ITD),双耳互相关系数(IACC)。参考信号和待测信号的ITD主要用于低频(低于1500HZ)声源方向定位,ITD可以通过计算基于时间窗的归一化互相关函数(Normalized Cross-correlation Function:NCF)来计算,参考信号和待测信号的ITD,IACC的计算方法是一样的,以待测信号为例,互相关函数的计算是用长度约为20ms的7/8重叠矩形窗,待测信号的互相关函数如下式:
NCF k 2 , n 2 [ d ] = &Sigma; l X L , k 2 , n 2 [ l ] X R , k 2 , n 2 [ l + d ] &Sigma; l X L , k 2 , n 2 2 [ l ] X R , k 2 , n 2 2 [ l ] . . . ( 15 )
上式中d表示样本间的时间延时,l表示离散序列索引,
Figure BDA0000157129090000103
Figure BDA0000157129090000104
分别表示待测信号左右声道频谱序列,
Figure BDA0000157129090000105
表示待测信号的频谱序列经过d延时后的结果。
则IACC定义为所有计算样本间延时d的NCF最大值,而ITD即是该最大值所对应的d值,也即是:
IACC [ k 2 , n 2 ] = max | NCF k 2 , n 2 [ d ] | d = - N 2 d = + N 2 . . . ( 16 )
ITD [ k 2 , n 2 ] arg d max | NCF k 2 , n 2 [ d ] | d = - N 2 d = + N 2 . . . ( 17 )
其中,IACC[k2,n2]和ITD[k2,n2]分别表示双耳互相关系数序列和双耳时间差序列。N2是样本延时d的范围,理论上几乎涵盖了所有ITD值,以样本数来表示。可感知的声源方向变化可以用基于单位圆的两个位置之间的欧式距离来近似计算。一般的,对于两个不同的方位角θ1、θ2之间的距离可以用以下公式计算:
( cos &theta; 1 - cos &theta; 2 ) 2 + ( sin &theta; 1 - sin &theta; 2 ) = 2 2 - 2 cos ( &theta; 1 - &theta; 2 ) . . . ( 18 )
从而,根据待测信号和参考信号之间的ITD的差别,两声源方向的感知距离计算如下:
&Delta;ITD [ k 2 , n 2 ] = 2 - 2 cos &pi; f s / N max ( ITD test [ k 2 , n 2 ] - ITD ref [ k 2 , n 2 ] ) . . . ( 19 )
其中,ITDtest[k2,n2]和ITDref[k2,n2]表示待测信号和参考信号的双耳时间差序列,fs是采样率,而Nmax是样本间ITD的最大值,因此
Figure BDA00001571290900001010
可视作限制上述公式中余弦函数的输入在0-π之间的归一化因子。
在某些情况下,如果IACC值太小以至于不能产生稳定的可感知声源方向,ITD值便不易计算。因此,我们需要加入一个确定性因子p[k2,n2]来考虑可计算的ITD确定性,该确定性可通过经近似相切反曲函数处理的IACC非线性变换建模得到:
p [ k 2 , n 2 ] = { 1 + e - S ( | IACC [ k 2 , n 2 ] | ) - T k } - 1 . . . ( 20 )
S和Tk分别是斜度和阀值,Tk在不同的频带取不同的值。因此经过确定性因子的建模,ITD失真值ITDDist[k2,n2]计算如下:
ITDDist [ k 2 , n 2 ] = 1 2 ( p test [ k 2 , n 2 ] + p ref [ k 2 , n 2 ] ) &times; &Delta;ITD [ k 2 , n 2 ] . . . ( 21 )
其中,pref[k2,n2]和ptest[k2,n2]分别表示参考信号和待测信号的确定性因子。
IACC表示清晰声源宽度,根据上述计算的IACC[k2,n2],不难计算IACC失真值IACCDist[k2,n2],与计算ITD不同这里计算互相关系数使用的窗函数长度为50ms:
IACCDist[k2,n2]=w2×|IACCtest[k2,n2]-IACCref[k2,n2]|.........(22)
其中,IACCtest[k2,n2]和IACCref[k2,n2]分别表示待测信号和参考信号的双耳互相关系数、w2表示加权系数。
参考信号和待测信号的ILD主要用于高频(高于2500HZ)声源方向定位,用于描述左右耳接收到声压级的差异,ILD是高频声音方向感知测度的重要线索,因此,待测信号和参考信号之间的ILD差异可以反映高频音频信号可感知的声音方向降质程度。ILD的计算公式如下:
ILD [ k 2 , n 2 ] = 10 log 10 ( &Sigma; l X L , k 2 , n 2 2 [ l ] &Sigma; l X R , k 2 , n 2 2 [ l ] ) . . . ( 23 )
ILD值ILD[k2,n2]为10倍于第n2时间帧第k2频带的左右耳输入信号XR和XL强度比值的对数值,且强度值是由长度为10ms的3/4重叠矩形窗计算。ILD的计算区别于ITD,首先,根据ILD不同,两处声源的可感知差异可由ILD的对数域值(DB功率)来表征;其次,针对基于ILD的声源方向定位判断,会考虑声音强度的权重。因此ILD失真测度ILDDist[k2,n2]如下所示:
ILDDist [ k 2 , n 2 ] = w 3 [ k 2 ] &times; log 10 ( &Sigma; l X T , k 2 , n 2 2 [ l ] &times; | ILD test [ k 2 , n 2 ] - ILD ref [ k 2 , n 2 ] | ) . . . ( 24 )
其中,w3[k2]是非线性权重因子,表示映射每个频带的ILD失真相对重要度,ILDtest[k2,n2]和ILDref[k2,n2]分别表示待测信号和参考信号的双耳声级差。综合上述的ILD,ITD和IACC将作为水平声场感知特征参数输入到3D心理认知模型中处理。
图4是本发明实施例的高度感知模型结构框图,待测信号的双耳合成信号stest和sref经过声道分离,分别以单声道(包括左右声道)作为高度感知模型的输入信号,然后经过FFT变换,高斯滤波,波峰和波谷检测,并采用估计器与HRTF数据库中的高度角信息进行对比,确定一次实验中待测信号的高度感知特征参数:声源的高度角θ。
为便于实施参考起见,提供实施例计算高度感知特征参数的具体步骤如下所述:
步骤3-1,分离待测信号的双耳合成信号的左右声道,并分别进行快速傅里叶变换,得到待测信号的频谱信号;
步骤3-2,将待测信号的频谱信号通过一个高斯滤波器滤波,得到滤波后的频谱信号;
步骤3-3,在待测信号的滤波后的频谱信号中检测频谱的波峰和波谷,将出现频谱的波峰波谷的位置和头相关传输函数数据库中的不同高度角的波峰波谷位置进行对比,估计得到待测信号的高度角。
在高度角θ的计算中,需要提供一个参考的数据库,数据库中包含头相关传输函数(HeadRelated Transfer Function,HRTF).估计器中用到的HRTF数据库是KEMAR数据库,该数据库来自麻省理工学院媒体实验室在假人工头(KEMAR)上测得的HRTF数据。在KEMAR模拟系统中搭建一个人工头放置在距离扬声器中垂线1.5米的位置接受双耳输入信号,人工头悬空并对称,左右耳输入信号假设是一致的,由估计器来估计声音事件的高度角。HRTFs是在无回声和无混响的听音室里,在中垂面上在-40°和90°之间以没10°为步长进行测量的,在KEMAR数据库有44100Hz的采样率和65个采样点的谱分辨率。
用于定位的谱线索主要集中于4k~16kHz,且决定前向声场方位的谱线索包含一个在4k~8kHz之间低于截止频率的八度音波谷(定义为N1)和一个能量增加且频率高于13kHz的八音度波谷;而上方声场方位的谱线索是在7k~9kHz之间的1/4八度音波峰(定义为P1)。随着声源的高度角在-45°和45°之间变化的时候,频谱的波谷在6k~10kHz之间也随着变化。多次实验的结果表明头传输函数的参数主要由第一个和第二个频谱波谷和第一个频谱波峰组成。
在频谱的波峰和波谷检测中,在5kHz以上的波峰和波谷对于感知高度角的贡献是比较大的,因此提取在频率范围4kHz以上的谱峰,根据具体位置对波峰和波谷进行标注(如P1,N1,P2,N2,....)。在提取波峰和波谷之前,应该用高斯滤波器对谱波动进行平滑处理:
H w ( k 3 ) = &Sigma; n 3 = - N 3 N 3 H ( k 3 + n 3 ) W ( n 3 ) . . . ( 25 )
W ( n 3 ) = 1 2 &pi; &sigma; e - n 3 2 2 &sigma; 2 . . . ( 26 )
H(k3+n3)是不同高度角的频谱,Hw(k3)是经过高斯滤波器后的频谱,W(n3)是高斯滤波器,k3和n3表征离散频点,为了使得信号更平滑,式中的n3和σ的设置依赖于采样率,在KEMAR曲线中N3和σ分别赋值为4和1.3,所述的频谱的波峰和波谷被定义为水平谱的相对极大值和极小值,且其中水平谱被归一化至0dB以使得峰值和谷值和声音音量相互独立。
在高度角θ估计中,为了能从HRTF数据库中的抽取出和实际单耳信号谱匹配度最高的HRTF曲线,需要对比不同HRTF曲线的波峰和波谷从而在数据库里找到最匹配的高度角θ对应的HRTF曲线。估计器计算过程如下描述,每个单耳信号和每个HRTF谱都有一套波峰属性和波谷属性:N和P,而k代表频带索引,因此有
Figure BDA0000157129090000133
Signal={kNi,kPi}.........(28)
其中,
Figure BDA0000157129090000134
表示不同高度角的HRTF谱,kNi和kPi分别表示波峰和波谷索引,
Figure BDA0000157129090000135
表示不同高度角,Signal表示一组波峰和波谷。
上式中,由于体现了声源高度定位最重要的频率段是在4000Hz和15000Hz之间,因此只有在4000Hz和15000Hz之间的波峰和波谷用来分析估计。每个HRTF曲线都赋予一个
Figure BDA0000157129090000136
值,用来表示各自声源信号频谱的波峰和波谷的频谱距离,也即是
Figure BDA0000157129090000137
上式中,
Figure BDA0000157129090000138
为声源信号频谱的波峰和波谷的频谱距离,wi表示加权因子。设ki和kj表示波峰或波谷的索引,
Figure BDA0000157129090000139
若ki=kj则wi=1;若|ki-kj|=1则wi=0.5;若|ki-kj|=2则wi=0.25;其他情况下,wi=0。w值在两个波峰频率相等时取最大值,且随着两个波峰频率不同而下降。信号谱中的每个波峰和波谷都用来从HRTF中搜索最相近的波峰和波谷,在算法中计算HRTF数据库中每个高度角对应波谷和声源波谷的频谱距离
Figure BDA0000157129090000141
最后
Figure BDA0000157129090000142
的最大值所对应的HRTF高度角即是所估计的高度角θ,也即是
Figure BDA0000157129090000143
如果有多个角度有同样的
Figure BDA0000157129090000144
值,则在该时间窗下的高度角θ为这些角度的平均值。
步骤3,随机选取若干组步骤2所得待测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数作为3D声场心理认知模型的输入,以预设的相应主观评价分数作为3D声场心理认知模型的输出,经过训练得到3D声场心理认知模型,将步骤2所得其他待测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数输入训练后的3D声场心理认知模型,得到音频质量客观评价结果。随机选取的比例可以由本领域技术人员自行指定,一般是取一半待测信号的的音色感知特征参数、水平声场感知特征参数、高度感知特征参数作为3D声场心理认知模型的输入进行训练,将另一半待测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数输入训练后的3D声场心理认知模型,得到音频质量客观评价结果。
图5是本发明实施例的3D声场心理认知模型结构框图,将之前所述的音色感知模型、水平声场感知模型和高度感知模型所得到的音色感知特征参数、水平声场感知特征参数、高度感知特征参数共14个参数作为BP神经网络的输入,经过神经网络后得到最终单一的音频质量客观评价分数。
实施例通过运用人工BP神经网络模型实现融合,基本实施过程如下:建立BP神经网络模型,其结构如图5所示,图中N表示节点。节点激活函数采用sigmoid函数,即
Figure BDA0000157129090000145
其中e为数学常数,x为该函数的输入。
该模型包含14个输入,并且神经网络模型的隐层中有5个节点。预先建立序列集,将原始的12个参考序列作为参考信号,利用不同的多声道压缩编码系统对12个序列进行编解码,得到12×12=144个作为待测信号的测试序列。可以预先由专家对每个测试序列进行主观评价,得到主观评价分数,本发明中作为已知量输入即可。随机取其中72个测试序列作为训练用的待测信号,将根据这72个待测信号和参考信号的双耳合成信号所得音色感知特征参数、水平声场感知特征参数、高度感知特征参数作为输入,以预设的相应主观评价分数作为输出,对模型映射过程中输入层的两个限制因子amin[i]和amax[i]、输入层的加权系数wx[i]、输出层的加权系数wy[j]以及输出层的两个限制因子bmin和bmax进行训练,得到一系列系数集合,3D声场心理认知模型形成。剩余的72个测试序列作为评价用的待测信号,使用训练过的神经网络进行客观质量评价得到客观评分,即将根据剩余72个待测信号和参考信号的双耳合成信号所得音色感知特征参数、水平声场感知特征参数、高度感知特征参数作为输入,训练过的神经网络的输出即是音频质量客观评价分数。
将音色特征参数、水平声场感知特征参数和高度感知特征参数共14个参数作为神经网络模型的输入a[i]输入给神经网络模型,映射到失真索引(Distortion Index:DI):
DI = w y [ J ] + &Sigma; j = 0 J - 1 ( w y [ j ] &times; sig ( w x [ I , j ] + &Sigma; i = 0 I - 1 w x [ i , j ] &times; x [ i ] - a min [ i ] a max [ i ] - a min [ i ] ) ) . . . ( 31 )
式中,I=14,J=5,则wy[J]表示j=5时候的输出层加权系数,wx[I,j]表示i=14时的输入层加权系数,x[i]表示输入,wx[i,j]表示输入层加权系数;i取0,1,K,I-1,j取0,1,K,J-1,利用失真索引DI,最终计算出音频质量客观评价分数ODG:
ODG=bmin+(bmax-bmin)×sig(DI).........(32)
该分数即为本发明所提出的评价3D音频质量的最终得分。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (6)

1.一种3D音频质量客观评价方法,其特征在于,包含以下步骤:
步骤1,将多声道信号的参考序列下混得到参考信号的双耳合成信号,将多声道信号的测试序列下混得到待测信号的双耳合成信号;
步骤2,根据步骤1所得参考信号的双耳合成信号和待测信号的双耳合成信号,计算得到待测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数; 
步骤3,随机选取若干组步骤2所得待测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数作为3D声场心理认知模型的输入,以预设的相应主观评价分数作为3D声场心理认知模型的输出,经过训练得到3D声场心理认知模型,将步骤2所得其他待测信号的音色感知特征参数、水平声场感知特征参数、高度感知特征参数输入训练后的3D声场心理认知模型,得到音频质量客观评价结果。
2.根据权利要求1所述的一种3D音频质量客观评价方法,其特征在于:在步骤1中,采用头相关传输函数实现下混,得到双耳合成信号。
3.根据权利要求1或2所述的一种3D音频质量客观评价方法,其特征在于:采用ITU-R BS.1387-1标准的感知音频质量客观评价模块实现计算待测信号的音色感知特征参数,包括如下步骤,
步骤1-1,通过FFT变换将双耳合成信号变换为频域信号,对频域信号计算平方幅值得到能量信号,模拟人外耳和中耳听觉效应对能量信号进行滤波处理,得到滤波后的能量信号;
步骤1-2,将滤波后的能量信号进行临界带分组,得到临界带分组信号;所述临界带分组处理模拟了人耳基底膜对不同频带信号的响应差异;
步骤1-3,根据心理声学理论对临界带分组信号进行临界带扩展得到激励样本,并计算得到调制样本;
步骤1-4,对激励样本经过时域和频域平滑处理,然后通过电平和模式调整,得到频谱适应样本,并计算掩蔽阈值;
步骤1-5,根据上述四个步骤的计算结果计算每帧音色感知特征参数值,最后通过平均计算得到待测信号的音色感知特征参数。
4.根据权利要求1或2所述的一种3D音频质量客观评价方法,其特征在于:所述待测信号的水平声场感知特征参数包括双耳声级差异、双耳时间差异和双耳互相关系数,计算水平声场感知特征参数包括如下步骤,
步骤2-1,通过FFT变换将双耳合成信号变换为频域信号,将参考信号和待测信号的频域信号通过一个Gammatone滤波器组划分为24个频段的巴克带,模拟外耳和中耳滤波对划分的巴克带进行加权,得到参考信号的激励模式和待测信号的激励模式;
步骤2-2,计算参考信号的激励模式和待测信号的激励模式的归一化互相关函数,得到参考信号和待测信号之间的双耳时间差异、参考信号和待测信号之间的双耳互相关系数,通过计算参考信号的激励模式和待测信号的激励模式的声强比值的对数值,得到参考信号和待测信号之间的双耳声级差异。
5.根据权利要求1或2所述的一种3D音频质量客观评价方法,其特征在于:所述待测信号的高度感知特征参数包括高度角,计算高度感知特征参数包括如下步骤,
    步骤3-1,分离待测信号的双耳合成信号的左右声道,并分别进行快速傅里叶变换,得到待测信号的频谱信号;
步骤3-2,将待测信号的频谱信号通过一个高斯滤波器滤波,得到滤波后的频谱信号;
步骤3-3,在待测信号的滤波后的频谱信号中检测频谱的波峰和波谷,将出现频谱的波峰波谷的位置和头相关传输函数数据库中的不同高度角的波峰波谷位置进行对比,估计得到待测信号的高度角。
6.根据权利要求1或2所述的一种3D音频质量客观评价方法,其特征在于:所述3D声场心理认知模型使用BP神经网络,在3D声场心理认知模型中BP神经网络使用最速下降法。
CN2012101253446A 2012-04-25 2012-04-25 一种3d音频质量客观评价方法 Expired - Fee Related CN102664017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101253446A CN102664017B (zh) 2012-04-25 2012-04-25 一种3d音频质量客观评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101253446A CN102664017B (zh) 2012-04-25 2012-04-25 一种3d音频质量客观评价方法

Publications (2)

Publication Number Publication Date
CN102664017A true CN102664017A (zh) 2012-09-12
CN102664017B CN102664017B (zh) 2013-05-08

Family

ID=46773483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101253446A Expired - Fee Related CN102664017B (zh) 2012-04-25 2012-04-25 一种3d音频质量客观评价方法

Country Status (1)

Country Link
CN (1) CN102664017B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103557925A (zh) * 2013-10-17 2014-02-05 西北工业大学 水下目标gammatone离散小波系数听觉特征提取方法
CN103761969A (zh) * 2014-02-20 2014-04-30 武汉大学 基于高斯混合模型的感知域音频编码方法及系统
CN104240712A (zh) * 2014-09-30 2014-12-24 武汉大学深圳研究院 一种三维音频多声道分组聚类编码方法及系统
CN104485114A (zh) * 2014-11-27 2015-04-01 湖南省计量检测研究院 一种基于听觉感知特性的语音质量客观评估的方法
CN104575520A (zh) * 2014-12-16 2015-04-29 中国农业大学 一种结合心理声学评价的声波监测装置及方法
CN106098081A (zh) * 2016-06-01 2016-11-09 腾讯科技(深圳)有限公司 声音文件的音质识别方法及装置
CN106716528A (zh) * 2014-07-28 2017-05-24 弗劳恩霍夫应用研究促进协会 用于对音频信号中的噪声进行估计的方法、噪声估计器、音频编码器、音频解码器、以及用于传输音频信号的系统
CN107170468A (zh) * 2017-04-10 2017-09-15 北京理工大学 一种基于两层模型的多声道音频质量评价方法
CN107734445A (zh) * 2013-10-25 2018-02-23 三星电子株式会社 立体声再现方法和设备
CN107818796A (zh) * 2017-11-16 2018-03-20 重庆师范大学 一种音乐考试评定方法及系统
CN108683984A (zh) * 2014-03-28 2018-10-19 三星电子株式会社 用于渲染声学信号的方法和设备
CN109147816A (zh) * 2018-06-05 2019-01-04 安克创新科技股份有限公司 对音乐进行音量调节的方法及设备
CN110074780A (zh) * 2019-04-25 2019-08-02 内蒙古农业大学 一种基于erp技术的音乐模式调节方法
CN110399522A (zh) * 2019-07-03 2019-11-01 中国传媒大学 一种基于lstm与分层匹配的音乐哼唱检索方法及装置
CN111210834A (zh) * 2018-11-20 2020-05-29 深圳市声希科技有限公司 语音夸张系统
CN111508525A (zh) * 2020-03-12 2020-08-07 上海交通大学 一种全参考音频质量评价方法及装置
CN111640454A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 频谱图匹配方法、装置、设备及计算机可读存储介质
CN111935624A (zh) * 2020-09-27 2020-11-13 广州汽车集团股份有限公司 车内音响空间感的客观评价方法、系统、设备及存储介质
CN112188382A (zh) * 2020-09-10 2021-01-05 江汉大学 一种声音信号处理方法、装置、设备和存储介质
CN112584297A (zh) * 2020-12-01 2021-03-30 中国电影科学技术研究所 音频数据的处理方法、装置和电子设备
CN114486286A (zh) * 2022-01-12 2022-05-13 中国重汽集团济南动力有限公司 一种车辆关门声品质评价方法及设备
CN115604642A (zh) * 2022-12-12 2023-01-13 杭州兆华电子股份有限公司(Cn) 一种空间音效的测试方法
CN115691515A (zh) * 2022-07-12 2023-02-03 南京拓灵智能科技有限公司 一种音频编解码方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004219826A (ja) * 2003-01-16 2004-08-05 Nippon Telegr & Teleph Corp <Ntt> 客観品質評価方法、客観品質評価装置、客観品質評価プログラム、客観品質評価プログラムを記録した記録媒体
CN1523930A (zh) * 2003-02-20 2004-08-25 华为技术有限公司 一种实现语音质量客观评价的测试方法与装置
US20100189290A1 (en) * 2009-01-29 2010-07-29 Samsung Electronics Co. Ltd Method and apparatus to evaluate quality of audio signal
CN102231279A (zh) * 2011-05-11 2011-11-02 武汉大学 基于听觉关注度的音频质量客观评价系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004219826A (ja) * 2003-01-16 2004-08-05 Nippon Telegr & Teleph Corp <Ntt> 客観品質評価方法、客観品質評価装置、客観品質評価プログラム、客観品質評価プログラムを記録した記録媒体
CN1523930A (zh) * 2003-02-20 2004-08-25 华为技术有限公司 一种实现语音质量客观评价的测试方法与装置
US20100189290A1 (en) * 2009-01-29 2010-07-29 Samsung Electronics Co. Ltd Method and apparatus to evaluate quality of audio signal
CN102231279A (zh) * 2011-05-11 2011-11-02 武汉大学 基于听觉关注度的音频质量客观评价系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾琦等: "ITU-TP系列语音质量评测标准综述", 《电声技术》, vol. 35, no. 12, 31 December 2011 (2011-12-31), pages 73 - 77 *

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103557925A (zh) * 2013-10-17 2014-02-05 西北工业大学 水下目标gammatone离散小波系数听觉特征提取方法
CN103557925B (zh) * 2013-10-17 2015-04-29 西北工业大学 水下目标gammatone离散小波系数听觉特征提取方法
US10645513B2 (en) 2013-10-25 2020-05-05 Samsung Electronics Co., Ltd. Stereophonic sound reproduction method and apparatus
US11051119B2 (en) 2013-10-25 2021-06-29 Samsung Electronics Co., Ltd. Stereophonic sound reproduction method and apparatus
CN107734445B (zh) * 2013-10-25 2019-10-15 三星电子株式会社 立体声再现方法和设备
CN107734445A (zh) * 2013-10-25 2018-02-23 三星电子株式会社 立体声再现方法和设备
CN103761969A (zh) * 2014-02-20 2014-04-30 武汉大学 基于高斯混合模型的感知域音频编码方法及系统
CN103761969B (zh) * 2014-02-20 2016-09-14 武汉大学 基于高斯混合模型的感知域音频编码方法及系统
CN108683984B (zh) * 2014-03-28 2020-10-16 三星电子株式会社 用于渲染声学信号的方法和设备
US10687162B2 (en) 2014-03-28 2020-06-16 Samsung Electronics Co., Ltd. Method and apparatus for rendering acoustic signal, and computer-readable recording medium
CN108683984A (zh) * 2014-03-28 2018-10-19 三星电子株式会社 用于渲染声学信号的方法和设备
US10762912B2 (en) 2014-07-28 2020-09-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Estimating noise in an audio signal in the LOG2-domain
CN106716528A (zh) * 2014-07-28 2017-05-24 弗劳恩霍夫应用研究促进协会 用于对音频信号中的噪声进行估计的方法、噪声估计器、音频编码器、音频解码器、以及用于传输音频信号的系统
CN106716528B (zh) * 2014-07-28 2020-11-17 弗劳恩霍夫应用研究促进协会 对音频信号中的噪声进行估计的方法和装置以及传输音频信号的装置和系统
US11335355B2 (en) 2014-07-28 2022-05-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Estimating noise of an audio signal in the log2-domain
CN104240712B (zh) * 2014-09-30 2018-02-02 武汉大学深圳研究院 一种三维音频多声道分组聚类编码方法及系统
CN104240712A (zh) * 2014-09-30 2014-12-24 武汉大学深圳研究院 一种三维音频多声道分组聚类编码方法及系统
CN104485114B (zh) * 2014-11-27 2018-03-06 湖南省计量检测研究院 一种基于听觉感知特性的语音质量客观评估的方法
CN104485114A (zh) * 2014-11-27 2015-04-01 湖南省计量检测研究院 一种基于听觉感知特性的语音质量客观评估的方法
CN104575520A (zh) * 2014-12-16 2015-04-29 中国农业大学 一种结合心理声学评价的声波监测装置及方法
CN106098081A (zh) * 2016-06-01 2016-11-09 腾讯科技(深圳)有限公司 声音文件的音质识别方法及装置
CN106098081B (zh) * 2016-06-01 2020-11-27 腾讯科技(深圳)有限公司 声音文件的音质识别方法及装置
CN107170468A (zh) * 2017-04-10 2017-09-15 北京理工大学 一种基于两层模型的多声道音频质量评价方法
CN107818796A (zh) * 2017-11-16 2018-03-20 重庆师范大学 一种音乐考试评定方法及系统
CN109147816B (zh) * 2018-06-05 2021-08-24 安克创新科技股份有限公司 对音乐进行音量调节的方法及设备
CN109147816A (zh) * 2018-06-05 2019-01-04 安克创新科技股份有限公司 对音乐进行音量调节的方法及设备
CN111210834A (zh) * 2018-11-20 2020-05-29 深圳市声希科技有限公司 语音夸张系统
CN110074780A (zh) * 2019-04-25 2019-08-02 内蒙古农业大学 一种基于erp技术的音乐模式调节方法
CN110399522B (zh) * 2019-07-03 2020-05-15 中国传媒大学 一种基于lstm与分层匹配的音乐哼唱检索方法及装置
CN110399522A (zh) * 2019-07-03 2019-11-01 中国传媒大学 一种基于lstm与分层匹配的音乐哼唱检索方法及装置
CN111508525A (zh) * 2020-03-12 2020-08-07 上海交通大学 一种全参考音频质量评价方法及装置
CN111508525B (zh) * 2020-03-12 2023-05-23 上海交通大学 一种全参考音频质量评价方法及装置
CN111640454B (zh) * 2020-05-13 2023-08-11 广州国音智能科技有限公司 频谱图匹配方法、装置、设备及计算机可读存储介质
CN111640454A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 频谱图匹配方法、装置、设备及计算机可读存储介质
CN112188382A (zh) * 2020-09-10 2021-01-05 江汉大学 一种声音信号处理方法、装置、设备和存储介质
CN111935624B (zh) * 2020-09-27 2021-04-06 广州汽车集团股份有限公司 车内音响空间感的客观评价方法、系统、设备及存储介质
CN111935624A (zh) * 2020-09-27 2020-11-13 广州汽车集团股份有限公司 车内音响空间感的客观评价方法、系统、设备及存储介质
CN112584297B (zh) * 2020-12-01 2022-04-08 中国电影科学技术研究所 音频数据的处理方法、装置和电子设备
CN112584297A (zh) * 2020-12-01 2021-03-30 中国电影科学技术研究所 音频数据的处理方法、装置和电子设备
CN114486286A (zh) * 2022-01-12 2022-05-13 中国重汽集团济南动力有限公司 一种车辆关门声品质评价方法及设备
CN114486286B (zh) * 2022-01-12 2024-05-17 中国重汽集团济南动力有限公司 一种车辆关门声品质评价方法及设备
CN115691515A (zh) * 2022-07-12 2023-02-03 南京拓灵智能科技有限公司 一种音频编解码方法及装置
CN115604642A (zh) * 2022-12-12 2023-01-13 杭州兆华电子股份有限公司(Cn) 一种空间音效的测试方法

Also Published As

Publication number Publication date
CN102664017B (zh) 2013-05-08

Similar Documents

Publication Publication Date Title
CN102664017B (zh) 一种3d音频质量客观评价方法
CN103348703B (zh) 用以利用预先算出的参考曲线来分解输入信号的装置和方法
Shi et al. On the importance of phase in human speech recognition
Huber et al. PEMO-Q—A new method for objective audio quality assessment using a model of auditory perception
Ganapathy et al. Robust feature extraction using modulation filtering of autoregressive models
CN101933085B (zh) 音频质量客观感知评估方法及其设备
CN107293286B (zh) 一种基于网络配音游戏的语音样本收集方法
CN102565759B (zh) 一种基于子带信噪比估计的双耳声源定位方法
Zhang et al. Effects of telephone transmission on the performance of formant-trajectory-based forensic voice comparison–female voices
CN103151049B (zh) 一种面向移动音频的服务质量保障方法及系统
CN103650537A (zh) 采用分解器产生输出信号的装置和方法
CN101896965A (zh) 用于音频传输系统的语音可懂度测量的方法和系统
CN106997765A (zh) 人声音色的定量表征方法
CN103050128B (zh) 基于抖动失真的语音频客观质量评价方法及系统
CN103559893B (zh) 一种水下目标gammachirp倒谱系数听觉特征提取方法
Voran Using articulation index band correlations to objectively estimate speech intelligibility consistent with the modified rhyme test
CN102231279B (zh) 基于听觉关注度的音频质量客观评价系统及方法
Gandhiraj et al. Auditory-based wavelet packet filterbank for speech recognition using neural network
US9200944B2 (en) Method of objectively determining subjective properties of a binaural sound signal
CN103312296B (zh) 一种听力保护用数字听感知滤波器组及其建立方法
Xiaomei et al. Bispectral feature speech intelligibility assessment metric based on auditory model
Yadav et al. Assessing linearity in the loudness envelope of the messa di voce singing exercise through acoustic signal analysis
Zheng et al. Peaq compatible audio quality estimation using computational auditory model
Voran Estimation of speech intelligibility and quality
Lapidus et al. Enhanced intrusive Voice Quality Estimation (EVQE)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130508

Termination date: 20190425