CN101681618A - 利用频谱修改的响度测量 - Google Patents

利用频谱修改的响度测量 Download PDF

Info

Publication number
CN101681618A
CN101681618A CN200880008969A CN200880008969A CN101681618A CN 101681618 A CN101681618 A CN 101681618A CN 200880008969 A CN200880008969 A CN 200880008969A CN 200880008969 A CN200880008969 A CN 200880008969A CN 101681618 A CN101681618 A CN 101681618A
Authority
CN
China
Prior art keywords
sound signal
shape
expression
reference spectrum
frequency spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200880008969A
Other languages
English (en)
Other versions
CN101681618B (zh
Inventor
阿兰·杰弗里·西费尔特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN101681618A publication Critical patent/CN101681618A/zh
Application granted granted Critical
Publication of CN101681618B publication Critical patent/CN101681618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

通过以下步骤来测量音频信号的感知响度:根据参考频谱形状修改音频信号的频谱表示,使得该音频信号的频谱表示更接近地符合参考频谱形状,并确定该音频信号的经修改的频谱表示的感知响度。

Description

利用频谱修改的响度测量
技术领域
本发明涉及音频信号处理。具体地,本发明涉及通过以下方法来测量音频信号的感知响度:根据参考频谱形状修改音频信号的频谱表示,使得音频信号的频谱表示更接近地符合参考频谱形状,并且计算音频信号经修改的频谱表示的感知响度。
相关申请的交叉引用
在2004年12月23日公布的Alan Jeffery Seefeldt等人名为“Method,Apparatus and Computer Program for Calculating and Adjusting thePerceived Loudness of an Audio Signal”的已公布的国际专利申请WO2004/111994A2中,在因其产生的、于2007年4月26日公布的美国专利申请US 2007/0092089中,以及在“A New Objective Measure of PerceivedLoudness”(Alan Jeffery Seefeldt等人,Audio Engineering SocietyConvention Paper 6236,旧金山,2004年10月28日)中,描述了有助于更好地理解本发明的各方面的用于客观测量感知的(心理声学的)响度的某些技术。将所述申请WO 2004/111994A2和US 2007/0092089以及所述论文的全部内容通过引用结合于此。
背景技术
存在很多方法用于客观测量音频信号的感知响度。这些方法的例子包括A、B和C加权功率测量以及例如在“Acoustics——Method forcalculating loudness level”ISO 532(1975)和所述申请WO 2004/111994A2和US 2007/0092089中所描述的响度的心理声学模型。加权功率测量通过获得输入音频信号,应用强调(emphasize)感知上较为敏感的频率而削弱(deemphasize)感知上较为不敏感的频率的已知滤波器,然后在预定时间长度上对经滤波的信号的功率求平均,来执行加权功率测量。心理声学方法通常更复杂,并且其目的是更好地建立人耳工作的模型。这种心理声学方法将信号划分为模仿耳朵的频率响应和灵敏度的频带,然后操纵并整合这些频带,同时考虑心理声学现象,诸如频率和时间屏蔽以及随着变化的信号强度的非线性响度感知。所有这些方法的目的是产生紧密匹配音频信号的主观印象的数值测量。
发明人已经发现了所描述的客观响度测量对于某些类型的音频信号无法准确匹配主观印象。在所述申请WO 2004/111994 A2和US2007/0092089中,将这种问题信号描述为“窄带”,意思是大部分信号能量集中在该可听频谱的一个或若干个小部分中。在所述申请中,公开了处理这种信号的方法,其包括对响度感知的传统心理声学模型的修改以引入两个响度函数的增长:一个用于“宽带”信号而第二个用于“窄带”信号。申请WO 2004/111994 A2和US 2007/0092089描述了基于对信号的“窄带”的测量在两个函数之间进行的内插。
尽管这种内插方法确实改善了关于主观印象的客观响度测量的性能,但是发明人此后已经开发了响度感知的可选心理声学模型,他相信该模型以更好的方式解释和解决了对于“窄带”问题信号的主观和客观响度测量之间的差别。这种可选模型在响度的客观测量中的应用构成了本发明的一个方面。
附图说明
图1示出了本发明的方面的简化的示意框图。
图2A、图2B和图2C以概念化方式示出根据本发明的方面对主要包含低音频率的理想化音频频谱进行频谱修改的例子。
图3A、图3B和图3C以概念化方式示出根据本发明的方面对与参考频谱相似的理想化音频频谱进行频谱修改的例子。
图4示出了有助于为心理声学响度模型计算激励信号的一组临界频带滤波器响应。
图5示出了ISO 226的等响度曲线。水平标度是单位为赫兹的频率(以10为底的对数标度),垂直标度是单位为分贝的声压级。
图6是对于音频记录数据库将根据未修改的心理声学模型的客观响度测量与主观响度测量进行比较的图。
图7是对于相同的音频记录数据库将根据使用本发明的方面的心理声学模型的客观响度测量与主观响度测量进行比较的图。
发明内容
根据本发明的方面,用于测量音频信号的感知响度的方法包括:获得音频信号的频谱表示;根据参考频谱形状修改频谱表示,使得音频信号的频谱表示更接近地符合参考频谱形状;以及计算音频信号的经修改的频谱表示的感知响度。根据参考频谱形状修改频谱表示可以包括:将频谱表示和参考频谱形状之间的差的函数最小化;以及响应于该最小化设定参考频谱形状的级。对差的函数进行最小化可以使得频谱表示和参考频谱形状之间的差的加权平均值最小。将差的函数最小化还可以包括施加偏移量以改变频谱表示和参考频谱形状之间的差。该偏移量可以是固定的偏移量。根据参考频谱形状修改频谱表示还可以包括对音频信号的频谱表示和级被设定的参考频谱形状取最大级。音频信号的频谱表示可以是近似于沿内耳基膜的能量分布的激励信号。
根据本发明的进一步的方面,测量音频信号的感知响度的方法包括:获得音频信号的表示;比较音频信号的表示与参考表示,以确定音频信号的表示匹配参考表示的接近程度;修改音频信号的至少部分的表示,使得音频信号的作为结果的经修改的表示更接近地匹配参考表示;以及根据音频信号的经修改的表示确定音频信号的感知响度。修改音频信号的至少部分的表示可以包括相对于音频信号的表示的级调节参考表示的级。可以调节参考表示的级,从而使得参考表示的级与音频信号的表示的级之间的差的函数最小。修改音频信号的至少部分的表示可以包括增大音频信号的部分的级。
根据本发明的再进一步的方面,确定音频信号的感知响度的方法包括:获得音频信号的表示;比较音频信号表示的频谱形状与参考频谱形状;调节参考频谱形状的级以匹配音频信号表示的频谱形状,使得音频信号表示的频谱形状与参考频谱形状之间的差减小;通过增大音频信号表示的频谱形状的部分来形成音频信号表示的经修改的频谱形状,以进一步改善音频信号表示的频谱形状与参考频谱形状之间的匹配;以及基于音频信号表示的经修改的频谱形状确定音频信号的感知响度。该调节可以包括将音频信号表示的频谱形状与参考频谱形状之间的差的函数最小化,以及响应于该最小化,设定参考频谱形状的级。对差的函数进行最小化可以使音频信号表示的频谱形状与参考频谱形状之间的差的加权平均最小。对差的函数进行最小化还可以包括施加偏偏移量以改变音频信号表示的频谱形状与参考频谱形状之间的差。该偏移量可以是固定的偏移量。根据参考频谱形状修改频谱表示还可以包括对音频信号的频谱表示和级被设定的参考频谱形状取最大级。
根据本发明的进一步的方面和再进一步的方面,音频信号表示可以是近似于沿着内耳基膜的能量分布的激励信号。
本发明的其它方面包括执行任一上述方法的设备,以及存储在计算机可读媒介中、用于使计算机进行任一上述方法的计算机程序。
具体实施方式
一般意义上,所有前面提到的客观响度测量(加权功率测量和心理声学模型)可以被认为是在频率上对音频信号的频谱的某表示的积分。在加权功率测量的情况下,该频谱是所选权重滤波器的功率频谱乘以该信号的功率频谱。在心理声学模型的情况下,该频谱可以是在一系列连续的临界频带内的功率的非线性函数。如前面提到的,已经发现了对响度的这种客观测量对具有先前描述为“窄带”的频谱的音频信号的性能降低。
发明人基于这种信号与普通声音的平均频谱形状不相似的前提做出了一种更简单和更直观的解释,而非将这种信号认为是窄带。可以认为在日常生活中遇到的多数声音,特别是语音,具有的频谱形状不过于显著偏离平均“预期”频谱形状。该平均频谱形状表现为能量通常随着最低和最高可听频率之间带通的频率的增加而减小。当某人评定具有显著背离这种平均频谱形状的频谱的声音响度时,本发明人假设此人会在某种程度上在感知上“填充”缺少预期能量的那些频谱区域。然后通过将包括感知上“填充”的频谱部分的经修改的频谱而非将实际信号频谱在频率上积分来获得响度的总体印象。例如,如果某人在听一段只有低音吉他演奏的音乐,此人通常会预期其它乐器最终加入该低音并填充频谱。本发明人相信响度的总体感知的一部分是由某人预期伴随该低音的缺失频率引起的,而非单独从独奏低音的频谱判断其总体响度。可以用心理声学上众所周知的“基频缺失”效应来类比。如果某人听到一系列和谐相关的音调,但是缺少该系列的基频,此人依然感觉该系列具有与缺少的基频相对应的音高。
根据本发明的方面,将上面假设的主观现象结合到对感知响度的客观测量。图1描绘了将本发明的方面应用到已经提到过的任意客观测量(即,加权功率模型和心理声学模型)的概况。作为第一步,可以将音频信号x变换为与所使用的特定客观响度测量相应的频谱表示X。固定的参考频谱Y表示上面所讨论的假设的平均预期频谱形状。可以例如通过对普通声音的代表性数据库的频谱求平均来预先计算该参考频谱。作为下一步,可以将参考频谱Y“匹配”到信号频谱X以产生级被设定的参考频谱YM。匹配的意思是作为对Y的级的缩放来产生YM,使得经匹配的参考频谱YM的级与X对准,该对准是X和YM之间的级差在频率上的函数。级对准可以包括在频率上对X和YM之间的加权的或未加权的差的最小化。可以以任意多种方式定义这种加权,但是可以选择这种加权使得频谱X的偏离参考频谱Y最多的部分具有最大权重。以这种方式,将信号频谱X的最“不平常”的部分最接近地对准YM。接下来,通过根据修改标准将X修改为接近经匹配的参考频谱YM来产生经修改的信号频谱XC。如下面将详细描述的,该修改可以采取在频率上简单地选择X和YM的最大值的形式,该形式模拟上面所讨论的在认知上的“填充”。最后,可以根据所选择的客观响度测量(即,在频率上的某种类型的积分)处理经修改的信号频谱XC以得出客观响度值L。
图2A至图2C和图3A至图3C分别描绘了对于两种不同的原始信号频谱X计算经修改的信号频谱XC的例子。在图2A中,由实线表示的原始信号频谱X在低音频率中包含其大部分能量。对比由虚线表示的所描述的参考频谱Y,信号频谱X的形状被认为是“不平常”的。在图2A中,最初在信号频谱X之上的任意开始级(较高的虚线)示出参考频谱。然后可以缩小参考频谱Y的级以匹配信号频谱X,产生匹配的参考频谱YM(较低的虚线)。可以注意到:YM最接近地匹配X的低音频率,在与参考频谱相比较时所述低音频率可以被认为是信号频谱的“不平常”的部分。在图2B中,使信号频谱X落在经匹配的参考频谱YM之下的部分等于YM,由此模拟认知上的“填充”过程。在图2C中所看到的结果是:由点线所表示的经修改的信号频谱XC等于X和YM在频率上的最大值。在这种情况下,对频谱进行的修改使得在原始频谱的较高频率处添加了大量能量。作为结果,根据经修改的信号频谱XC计算出的响度大于根据原始信号频谱X所能计算出的响度,这是所期望的效果。
在图3A至图3C中,信号频谱X在形状上相似于参考频谱Y。因此,可以在所有频率上将经匹配的参考频谱YM降至信号频谱X以下,并且经修改的信号频谱XC可以等于原始信号频谱X。在该例子中,该修改不以任何方式影响随后的响度测量。如图3A至图3C所示,对于信号的大部分而言,其频谱足够接近经修改的频谱,从而不进行修改,并且因此不发生对响度计算的改变。优选地,只修改如图2A至图2C中的“不平常”的频谱。
在所述申请WO 2004/111994A2和US 2007/0092089中,Seefeldt等人除其它方面之外还公开了一种基于心理声学模型的对感知响度的客观测量。本发明的优选实施例可以将所描述的频谱修改应用于这种心理声学模型。先回顾没有修改的模型,然后描述修改的实施细节。
心理声学模型首先根据音频信号x[n]计算时间块t期间临界频带b处近似于沿着内耳基膜的能量分布的激励信号E[b,t]。可以由如下的音频信号的短时离散傅里叶变换(STDFT)计算该激励:
E [ b , t ] = λ b E [ b , t - 1 ] + ( 1 - λ b ) Σ k | T [ k ] | 2 | C b [ k ] | 2 | X [ k , t ] | 2 - - - ( 1 )
其中X[k,t]表示x[n]在时间块t和窗口k的STDFT,其中k是该变换中的频率窗口下标,T[k]表示模拟通过外耳和中耳的音频传播的滤波器的频率响应,而Cb[k]表示基膜在对应于临界频带b的位置处的频率响应。图4描绘了一组合适的临界频带滤波器响应,其中四十个频带沿着由Moore和Glasberg定义的等效矩形带宽(ERB,Equivalent RectangularBandwidth)标度(B.C.J.Moore、B.Glasberg和T.Baer,“A Model forthe Prediction of Thresholds,Loudness,and Partial Loudness”,Journalof the Audio Engineering Society,Vol.45,NO.4,1997年4月,224页至240页)均匀地间隔开。每个滤波器形状由圆通化(Rounded)指数函数描述,并且使用1ERB的间隔来分布频带。最后,可以有利地选择(1)中的平滑时间常数λb使其与频带b内的人类响度感知的积分时间成比例。
使用例如图5中所描绘的那些等响度曲线,将每个频带上的激励变换为会在1千赫兹上产生相同响度的激励级。然后根据经变换的激励E1kHz[b,t]利用压缩非线性来计算具体响度,该具体响度为对分布在频率和时间上的感知响度的测量。以下给出一个这种计算具体响度N[b,t]的合适的函数:
N [ b , t ] = β ( ( E 1 kHz [ b , t ] TQ 1 kHz ) α - 1 ) - - - ( 2 )
其中TQ1kHz是1千赫兹上的安静阈值,并且选择常数β和α以匹配对于1千赫兹音调的响度增长的主观印象。尽管已经发现了值0.24对于β以及值0.045对于α是适合的,但是这些值不是关键的。最后,通过将具体响度在频带上求和,计算以宋(sone)为单位表示的总响度L[t]:
L [ t ] = Σ b N [ b , t ] - - - ( 3 )
在该心理声学模型中,在计算总响度之前,存在该音频的两种中间频谱表示:激励E[b,t]和具体响度N[b,t]。对于本发明,虽然可以对其中任意一个进行频谱修改,但是只对激励而不对具体响度进行修改会简化计算。这是因为在频率上的激励的形状不随音频信号的总体级改变。这反映在如图2A至图2C和图3A至图3C中所示的方式中,其中频谱在不同级保持相同的形状。由于等式2中的非线性,具体响度的情况则不是这样。因而,此处所给出的例子对激励频谱表示进行频谱修改。
对激励进行的频谱修改假设存在固定的参考激励Y[b]。在实践中,可以通过对根据包含大量语音信号的声音数据库计算的激励求平均来得出Y[b]。对于本发明,参考激励频谱Y[b]的来源不是关键的。在进行修改的过程中,使用信号激励E[b,t]和参考激励Y[b]的分贝表示是有帮助的:
EdB[b,t]=10log10(E[b,t])    (4a)
YdB[b]=10log10(Y[b])          (4b)
作为第一步,可以将分贝参考激励YdB[b]匹配到分贝信号激励EdB[b,t],以产生匹配的分贝参考激励YdBM[b],其中将YdBM[b]表示为参考激励的缩放(或者在使用分贝时表示为附加偏移量):
YdBM[b]=Ydb[b]+ΔM            (5)
根据EdB[b,t]和YdB[b]之间的差Δ[b]计算匹配偏移量ΔM,其中:
Δ[b]=EdB[b,t]-YdB[b]        (6)
根据该差激励Δ[b],通过将差激励规范化为具有最小值0然后取γ次方来计算权重W[b]:
W [ b ] = ( Δ [ b ] - min b { Δ [ b ] } ) γ - - - ( 7 )
在实践中,γ=2的设定效果良好,然而该值不是关键的并且可以使用其它权重或者根本不使用权重(即,γ=1)。然后通过对差激励Δ[b]进行加权平均并且加上公差偏移量ΔTol来计算匹配偏移量ΔM
Δ M = Σ b W [ b ] Δ [ b ] Σ b W [ b ] + Δ Tol - - - ( 8 )
等式7中的权重在大于1时使得信号激励EdB[b,t]与参考激励YdB[b]相差得最多的那些部分对匹配偏移量ΔM贡献最大。公差偏移量ΔTol影响在进行修改时发生的“填充”的大小。在实践中,ΔTol=-12dB的设定效果良好,使得音频频谱的大部分在进行修改之后维持不变。(在图3A至图3C中,ΔTol的该负值使得经匹配的参考频谱完全落在信号频谱以下而非与信号频谱相当,因此导致不调整信号频谱。)
一旦已经计算了经匹配的参考激励,通过在频带上对EdB[b,t]和YdBM[b]取最大值来进行修改以产生经修改的信号激励:
EdBC[b,t]=max{EdB[b,t],YdBM[b]}(9)
然后将经修改的激励的分贝表示转换回线性表示:
E C [ b , t ] = 10 EdB C [ b , t ] / 10 - - - ( 10 )
然后根据心理声学模型在计算响度的剩余步骤中用经修改的信号激励EC[b,t]替代原始信号激励E[b,t]。(即,如等式2和等式3所给出的,计算具体响度并且在频带上对具体响度求和)
图6和图7所描绘的数据分别显示未经修改的和经修改的心理声学模型对音频记录数据库的主观评定的响度的预测情况,以证明所公开的发明的实际效用。对于数据库中的每个测试记录,要求受测试者调节音频的音量以匹配某些固定的参考记录的响度。对于每个测试记录,受测试者可以在测试记录和参考记录之间反复地瞬时切换以判断响度的差别。对于每个受测试者,针对每个测试记录存储单位为分贝的最终经调节的音量增益,然后针对许多受测试者对这些增益求平均,以产生针对每个测试记录的主观响度测量。然后使用未经修改的和经修改的心理声学模型针对数据库中每个记录产生响度的客观测量,并且在图6和图7中将这些客观测量与主观测量进行比较。在两个图中,横坐标表示以分贝为单位的主观测量,而纵轴表示以分贝为单位的客观测量。图中每个点表示数据库中的一个记录,并且如果客观测量完全匹配主观测量,则每个点都会准确地落在对角线上。
对于图6中未经修改的心理声学模型,可以注意到多数数据点落在对角线附近,但是在线的上方存在显著数量的异常值(outlier)。这种异常值表示前面所讨论的问题信号,并且与平均主观评估相比,未经修改的心理声学模型将它们评估得过于安静。对于整个数据库,客观和主观测量之间的平均绝对误差(AAE)是相当低的2.12分贝,但是最大绝对误差(MAE)达到了很高的10.2分贝。
图7描绘了对于经修改的心理声学模型的相同数据。这里,除了已经使异常值与聚集在对角线的其它点相一致之外,大多数数据点与图6相比维持不变。与未经修改的心理声学模型相比,AAE稍微减小到1.43分贝,而MAE显著减小到4分贝。所公开的对先前的异常信号的频谱修改的好处是显而易见的。
实施
尽管原则上本发明可以在模拟或数字领域(或者二者的组合)中实行,但是在本发明的实际实施例中,音频信号由数据块中的采样表示,并且在数字领域进行处理。
本发明可以以硬件或软件,或用二者的组合(例如,可编程逻辑阵列)的形式实现。除非另外指定,作为本发明的部分所包括的算法和过程不固有地与任何特定计算机或其它设备相关。特别地,可以借助根据此处的教导所编写的程序使用各种通用机器,或者可以更方便地建立更专用的设备(例如,集成电路),以执行所需的方法步骤。因此,可以用在一个或更多可编程计算机系统上执行的一个或更多计算机程序实现本发明,其中每个可编程计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失和非易失存储器和/或存储元件)、至少一个输入设备或端口和至少一个输出设备或端口。将程序代码提供给输入数据以执行此处所述的功能并产生输出信息。以已知方式将输出信息提供给一个或更多输出器件。
可以用任何期望的计算机语言(包括机器语言、汇编语言或高级程序语言、逻辑语言或面向对象的编程语言)实现每个这种程序以便与计算机系统进行通信。在任何情况下,所述语言可以是被编译的或被解释的语言。
优选地将每个这种计算机程序存储在或下载到存储介质或器件(例如,固态存储器或介质,或者磁或光介质),所述存储介质或器件可由通用或专用可编程计算机读取,用于在计算机系统读取该存储介质或器件时,配置或操作该计算机执行此处所述的过程。也可以考虑将发明的系统实现为配置有计算机程序的计算机可读介质,其中该存储介质配置为使得计算机系统以特定且预定的方式操作,以便执行此处所述的功能。已经描述了本发明的若干实施例。然而,应该理解,可以做出各种修改而不脱离本发明的精神和范围。例如,这里所描述的某些步骤可以是在顺序上独立的,因此可以以不同于所描述的顺序执行该步骤。

Claims (20)

1.一种用于测量音频信号的感知响度的方法,所述方法包括:
获得所述音频信号的频谱表示;
根据参考频谱形状修改所述频谱表示,使得所述音频信号的所述频谱表示更接近地符合参考频谱形状;以及
计算所述音频信号的经修改的频谱表示的感知响度。
2.根据权利要求1所述的方法,其中,根据参考频谱形状修改所述频谱表示包括:将所述频谱表示和所述参考频谱形状之间的差的函数最小化;以及响应于所述最小化来设定所述参考频谱形状的级。
3.根据权利要求2所述的方法,其中,对差的函数进行最小化使得所述频谱表示与所述参考频谱形状之间的差的加权平均最小。
4.根据权利要求2或权利要求3所述的方法,其中,对差的函数进行最小化还包括:施加偏移量,以改变所述频谱表示与所述参考频谱形状之间的差。
5.根据权利要求4所述的方法,其中,所述偏移量是固定的偏移量。
6.根据权利要求2至5中任一权利要求所述的方法,其中,根据参考频谱形状修改所述频谱表示还包括:对所述音频信号的所述频谱表示以及对级被设定的参考频谱形状取最大级。
7.根据权利要求1至6中任一权利要求所述的方法,其中,所述音频信号的所述频谱表示是近似于沿内耳基膜的能量分布的激励信号。
8.一种测量音频信号的感知响度的方法,所述方法包括:
获得音频信号的表示;
将所述音频信号的所述表示与参考表示进行比较,以确定所述音频信号的所述表示匹配所述参考表示的接近程度;
修改所述音频信号的所述表示的至少一部分,使得所产生的所述音频信号的经修改的表示更接近地匹配所述参考表示;以及
根据音频信号的经修改的表示确定所述音频信号的感知响度。
9.根据权利要求8所述的方法,其中,修改所述音频信号的所述表示的至少一部分包括:相对于所述音频信号的所述表示的级来调节所述参考表示的级。
10.根据权利要求9所述的方法,其中,调节所述参考表示的级,从而使所述参考表示的级与所述音频信号的所述表示的级之间的差的函数最小。
11.根据权利要求8至10中任一权利要求所述的方法,其中,修改所述音频信号的所述表示的至少一部分包括增大所述音频信号的某些部分的级。
12.一种确定音频信号的感知响度的方法,包括:
获得所述音频信号的表示;
将所述音频信号表示的频谱形状与参考频谱形状进行比较;
调节所述参考频谱形状的级以匹配所述音频信号表示的频谱形状,使得所述音频信号表示的频谱形状与所述参考频谱形状之间的差减小;
通过增大所述音频信号表示的频谱形状的某些部分,形成所述音频信号表示的经修改的频谱形状,以进一步改善所述音频信号表示的频谱形状与所述参考频谱形状之间的匹配;以及
基于所述音频信号表示的经修改的频谱形状确定所述音频信号的感知响度。
13.根据权利要求12所述的方法,其中,所述调节包括:将所述音频信号表示的所述频谱形状与所述参考频谱形状之间的差的函数最小化,以及响应于所述最小化设定所述参考频谱形状的级。
14.根据权利要求13所述的方法,其中,对差的函数进行最小化使得所述音频信号表示的所述频谱形状与所述参考频谱形状之间的差的加权平均值最小。
15.根据权利要求13或权利要求14所述的方法,其中,对所述差的函数进行最小化还包括:施加偏移量,以改变所述音频信号表示的所述频谱形状与所述参考频谱形状之间的差。
16.根据权利要求15所述的方法,其中,所述偏移量为固定的偏移量。
17.根据权利要求13至16中任一权利要求所述的方法,其中,根据所述参考频谱形状修改所述频谱表示还包括:对所述音频信号的所述频谱表示以及所述级被设定的参考频谱形状取最大级。
18.根据权利要求12至17中任一权利要求所述的方法,其中,所述音频信号表示是近似于沿内耳基膜的能量分布的激励信号。
19.适合于执行如权利要求1至18中任一权利要求所述的方法的设备。
20.一种存储在计算机可读介质中的计算机程序,其用于使计算机执行如权利要求1至18中任一权利要求所述的方法。
CN200880008969.6A 2007-06-19 2008-06-18 利用频谱修改的响度测量 Active CN101681618B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US93635607P 2007-06-19 2007-06-19
US60/936,356 2007-06-19
PCT/US2008/007570 WO2008156774A1 (en) 2007-06-19 2008-06-18 Loudness measurement with spectral modifications

Publications (2)

Publication Number Publication Date
CN101681618A true CN101681618A (zh) 2010-03-24
CN101681618B CN101681618B (zh) 2015-12-16

Family

ID=39739933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880008969.6A Active CN101681618B (zh) 2007-06-19 2008-06-18 利用频谱修改的响度测量

Country Status (18)

Country Link
US (1) US8213624B2 (zh)
EP (1) EP2162879B1 (zh)
JP (1) JP2010521706A (zh)
KR (1) KR101106948B1 (zh)
CN (1) CN101681618B (zh)
AU (1) AU2008266847B2 (zh)
BR (1) BRPI0808965B1 (zh)
CA (1) CA2679953C (zh)
DK (1) DK2162879T3 (zh)
HK (1) HK1141622A1 (zh)
IL (1) IL200585A (zh)
MX (1) MX2009009942A (zh)
MY (1) MY144152A (zh)
PL (1) PL2162879T3 (zh)
RU (1) RU2434310C2 (zh)
TW (1) TWI440018B (zh)
UA (1) UA95341C2 (zh)
WO (1) WO2008156774A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106792346A (zh) * 2016-11-14 2017-05-31 广东小天才科技有限公司 一种教学视频中的音频调整方法及装置

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2005299410B2 (en) 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
ES2359799T3 (es) 2006-04-27 2011-05-27 Dolby Laboratories Licensing Corporation Control de ganancia de audio usando detección de eventos auditivos basada en la sonoridad específica.
CA2665153C (en) 2006-10-20 2015-05-19 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset
ATE535906T1 (de) 2007-07-13 2011-12-15 Dolby Lab Licensing Corp Tonverarbeitung mittels auditorischer szenenanalyse und spektraler asymmetrie
WO2009086174A1 (en) 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals
US8761415B2 (en) 2009-04-30 2014-06-24 Dolby Laboratories Corporation Controlling the loudness of an audio signal in response to spectral localization
CN102422349A (zh) * 2009-05-14 2012-04-18 夏普株式会社 增益控制装置和增益控制方法、声音输出装置
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
TWI525987B (zh) 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
KR101521478B1 (ko) 2010-12-07 2015-05-19 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 엔드-투-엔드 체감 품질 측정을 위한 오디오 핑거프린트 차이
US8965756B2 (en) * 2011-03-14 2015-02-24 Adobe Systems Incorporated Automatic equalization of coloration in speech recordings
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
EP2837094B1 (en) 2012-04-12 2016-03-30 Dolby Laboratories Licensing Corporation System and method for leveling loudness variation in an audio signal
US9391575B1 (en) * 2013-12-13 2016-07-12 Amazon Technologies, Inc. Adaptive loudness control
US9503803B2 (en) 2014-03-26 2016-11-22 Bose Corporation Collaboratively processing audio between headset and source to mask distracting noise
CN105100787B (zh) * 2014-05-20 2017-06-30 南京视威电子科技股份有限公司 响度显示装置及显示方法
US10842418B2 (en) 2014-09-29 2020-11-24 Starkey Laboratories, Inc. Method and apparatus for tinnitus evaluation with test sound automatically adjusted for loudness
EP4372746A2 (en) 2014-10-10 2024-05-22 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
US9590580B1 (en) 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
DE102015217565A1 (de) * 2015-09-15 2017-03-16 Ford Global Technologies, Llc Verfahren und Vorrichtung zur Verarbeitung von Audio-Signalen
CN110191396B (zh) * 2019-05-24 2022-05-27 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、装置、终端及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2808475A (en) * 1954-10-05 1957-10-01 Bell Telephone Labor Inc Loudness indicator
EP1239269A1 (en) * 2000-08-29 2002-09-11 Japan as represented by Director-General of National Istitute of Advanced Industrial Science and Technology, Ministry of Econo Sound measuring method and device allowing for auditory sense characteristics
WO2006051586A1 (ja) * 2004-11-10 2006-05-18 Adc Technology Inc. 音響電子回路及びその音量調節方法
JP2006333396A (ja) * 2005-05-30 2006-12-07 Victor Co Of Japan Ltd 音声信号拡声装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4953112A (en) * 1988-05-10 1990-08-28 Minnesota Mining And Manufacturing Company Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model
US5274711A (en) * 1989-11-14 1993-12-28 Rutledge Janet C Apparatus and method for modifying a speech waveform to compensate for recruitment of loudness
GB2272615A (en) * 1992-11-17 1994-05-18 Rudolf Bisping Controlling signal-to-noise ratio in noisy recordings
US5812969A (en) * 1995-04-06 1998-09-22 Adaptec, Inc. Process for balancing the loudness of digitally sampled audio waveforms
FR2762467B1 (fr) * 1997-04-16 1999-07-02 France Telecom Procede d'annulation d'echo acoustique multi-voies et annuleur d'echo acoustique multi-voies
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
DE10308483A1 (de) * 2003-02-26 2004-09-09 Siemens Audiologische Technik Gmbh Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät
US7089176B2 (en) * 2003-03-27 2006-08-08 Motorola, Inc. Method and system for increasing audio perceptual tone alerts
AU2004248544B2 (en) 2003-05-28 2010-02-18 Dolby Laboratories Licensing Corporation Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal
US20050113147A1 (en) * 2003-11-26 2005-05-26 Vanepps Daniel J.Jr. Methods, electronic devices, and computer program products for generating an alert signal based on a sound metric for a noise signal
US7574010B2 (en) * 2004-05-28 2009-08-11 Research In Motion Limited System and method for adjusting an audio signal
EP1763923A1 (en) * 2004-06-30 2007-03-21 Koninklijke Philips Electronics N.V. Method of and system for automatically adjusting the loudness of an audio signal
RU2279759C2 (ru) 2004-07-07 2006-07-10 Гарри Романович Аванесян Психоакустический процессор
AU2005299410B2 (en) 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US8566086B2 (en) * 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
JP2008176695A (ja) 2007-01-22 2008-07-31 Nec Corp サーバ、これを用いた質問回答システム、端末、サーバの動作方法、及びその動作プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2808475A (en) * 1954-10-05 1957-10-01 Bell Telephone Labor Inc Loudness indicator
EP1239269A1 (en) * 2000-08-29 2002-09-11 Japan as represented by Director-General of National Istitute of Advanced Industrial Science and Technology, Ministry of Econo Sound measuring method and device allowing for auditory sense characteristics
WO2006051586A1 (ja) * 2004-11-10 2006-05-18 Adc Technology Inc. 音響電子回路及びその音量調節方法
JP2006333396A (ja) * 2005-05-30 2006-12-07 Victor Co Of Japan Ltd 音声信号拡声装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALAN SEEFELDT, ET AL.: "A New Objective Measure of Perceived Loudness", 《AUDIO ENGINEERING SOCIETY CONVENTION PAPER》 *
GLLBERT A. SOULODRE: "Evaluation of Objective Loudness Meters", 《AUDIO ENGINEERING SOCIETY CONVENTION PAPER》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106792346A (zh) * 2016-11-14 2017-05-31 广东小天才科技有限公司 一种教学视频中的音频调整方法及装置

Also Published As

Publication number Publication date
EP2162879A1 (en) 2010-03-17
RU2434310C2 (ru) 2011-11-20
AU2008266847A1 (en) 2008-12-24
CA2679953C (en) 2014-01-21
IL200585A0 (en) 2010-05-17
DK2162879T3 (da) 2013-07-22
UA95341C2 (ru) 2011-07-25
WO2008156774A1 (en) 2008-12-24
CN101681618B (zh) 2015-12-16
BRPI0808965A2 (pt) 2014-08-26
CA2679953A1 (en) 2008-12-24
EP2162879B1 (en) 2013-06-05
US8213624B2 (en) 2012-07-03
HK1141622A1 (en) 2010-11-12
TWI440018B (zh) 2014-06-01
IL200585A (en) 2013-07-31
MX2009009942A (es) 2009-09-24
BRPI0808965B1 (pt) 2020-03-03
KR20100013308A (ko) 2010-02-09
RU2009135056A (ru) 2011-03-27
PL2162879T3 (pl) 2013-09-30
JP2010521706A (ja) 2010-06-24
MY144152A (en) 2011-08-15
US20100067709A1 (en) 2010-03-18
AU2008266847B2 (en) 2011-06-02
KR101106948B1 (ko) 2012-01-20
TW200912893A (en) 2009-03-16

Similar Documents

Publication Publication Date Title
CN101681618A (zh) 利用频谱修改的响度测量
CN102986136B (zh) 修改输入音频信号的装置及方法
Karjalainen A new auditory model for the evaluation of sound quality of audio systems
CN101411060B (zh) 用于多声道音频信号的响度修改的方法和设备
Smith et al. Bark and ERB bilinear transforms
Mürbe et al. Effects of a professional solo singer education on auditory and kinesthetic feedback—a longitudinal study of singers' pitch control
US5794188A (en) Speech signal distortion measurement which varies as a function of the distribution of measured distortion over time and frequency
CN101896965A (zh) 用于音频传输系统的语音可懂度测量的方法和系统
Hunter et al. Comparison of the produced and perceived voice range profiles in untrained and trained classical singers
Fenton et al. Towards a perceptual model of “punch” in musical signals
Ma et al. Partial loudness in multitrack mixing
Gerat et al. Virtual analog modeling of a UREI 1176LN dynamic range control system
Fenton et al. A Perceptual Model of “Punch” Based on Weighted Transient Loudness
Traunmüller Perception of speaker sex, age, and vocal effort
EP1250830A1 (en) Method and device for determining the quality of a signal
US5944672A (en) Digital hearing impairment simulation method and hearing aid evaluation method using the same
Hunter et al. Overlap of hearing and voicing ranges in singing
US8175282B2 (en) Method of evaluating perception intensity of an audio signal and a method of controlling an input audio signal on the basis of the evaluation
Viswanathan et al. Objective speech quality evaluation of narrowband LPC vocoders
Thoshkahna et al. A psychoacoustics based sound onset detection algorithm for polyphonic audio
Pahomov et al. Method for Quantitative Evaluation of Auditory Perception of Nonlinear Distortion
CN115460527A (zh) 基于心理声学的耳机失真测量方法、存储介质、耳机
Thoshkahna et al. A psychoacoustically motivated sound onset detection algorithm for polyphonic audio
Crockett et al. A new objective measure of perceived loudness
CN106165016A (zh) 均衡器、具有该均衡器的音频系统及对混音进行均衡的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20100324

Assignee: Lenovo (Beijing) Co., Ltd.

Assignor: Dolby Lab Licensing Corp.

Contract record no.: 2012990000553

Denomination of invention: Loudness measurement with spectral modifications

License type: Common License

Record date: 20120731

EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20100324

Assignee: Lenovo (Beijing) Co., Ltd.

Assignor: Dolby Lab Licensing Corp.

Contract record no.: 2012990000553

Denomination of invention: Loudness measurement with spectral modifications

License type: Common License

Record date: 20120731

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
C14 Grant of patent or utility model
GR01 Patent grant