CN103430574A - 用于确定对于混响感知水平的度量的装置与方法、音频处理器及用于处理信号的方法 - Google Patents
用于确定对于混响感知水平的度量的装置与方法、音频处理器及用于处理信号的方法 Download PDFInfo
- Publication number
- CN103430574A CN103430574A CN2012800111925A CN201280011192A CN103430574A CN 103430574 A CN103430574 A CN 103430574A CN 2012800111925 A CN2012800111925 A CN 2012800111925A CN 201280011192 A CN201280011192 A CN 201280011192A CN 103430574 A CN103430574 A CN 103430574A
- Authority
- CN
- China
- Prior art keywords
- signal
- reverberation
- loudness
- signal component
- reverb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K15/00—Acoustics not otherwise provided for
- G10K15/08—Arrangements for producing a reverberation or echo sound
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
- H04S5/005—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation of the pseudo five- or more-channel type, e.g. virtual surround
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K15/00—Acoustics not otherwise provided for
- G10K15/08—Arrangements for producing a reverberation or echo sound
- G10K15/12—Arrangements for producing a reverberation or echo sound using electronic time-delay networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/07—Synergistic effects of band splitting and sub-band processing
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
Abstract
一种用于确定在包括直接信号分量(100)和混响信号分量(102)的混合信号中对混响感知水平的度量的装置,其包括响度模型处理器(104),该响度模型处理器包括用于滤波该原始信号分量(100)、该混响信号分量(102)或该混合信号的感知滤波级,其中该感知滤波级被配置为模型化实体的听觉感知机构而获得滤波后的直接信号、滤波后的混响信号、或滤波后的混合信号。该装置还包括用于使用该滤波后的直接信号估计第一响度度量,并用于使用该滤波后的混响信号或该滤波后的混合信号估计第二响度度量的响度估计器,其中,该滤波后的混合信号从该直接信号分量及该混响信号分量的混叠得出。该装置还包括用于组合该第一与第二响度度量(106、108)而获得对于混响感知水平的度量(112)的组合器(110)。
Description
技术领域
本案有关于音频信号处理,特别是有关于可用于人工混响器的音频处理。
背景技术
确定对于混响(reverberation)感知水平的度量最好应用于人工混响处理器以自动化方式操作,并需要将其参数调整适应于输入信号,以使该混响的感知水平匹配目标值的情况中。须注意术语混响虽然暗示相同主旨,但显然不具有共同接受的定义,因而使得术语混响难以在收听测试及预测方案中作为量化度量。
人工混响处理器经常被实现为线性非时变系统,并在往返信号路径中操作,如第6图所示,具有前置延迟d、混响脉冲响应(RIR)、及用于控制直接混响比(DRR)的定标(scaling,比例换算)因子g。当实现为参数混响处理器时,其具有多个参数特征,例如用于控制RIR的形状及密度,及在一个或多个频带中针对多声道处理器的RIR的声道间相干性(ICC)。
图6显示在输入600输入的直接信号x[k],及此信号被转发至加法器602,该加法器602用于将加信号加至输出自加权器604的混响信号分量r[k],该加权器604在其第一输入接收由混响滤波器606所输出的信号,及在其第二输入接收增益因子g。混响滤波器606可具有连接在混响滤波器606上游的选择性延迟级608,但因实际上混响滤波器606将包含其本身的若干延迟,故在方块608的延迟可包括在混响滤波器606中,使得图6的上支路可以只包含合并该延迟及该混响,或只合并混响而无任何额外延迟的单个的滤波器。混响信号分量由滤波器606输出,此混响信号分量可由乘法器606响应于增益因子g修改来获得处理混响信号分量r[k],其然后组合在600输入的直接信号分量来最终地在加法器602的输出获得混合信号m[k]。注意术语“混响滤波器”指人工混响的普通实现方式(或如等价于FIR滤波的卷积,或如使用递归结构的实现方式,诸如反馈延迟网络或全通滤波器及反馈巢式滤波器网络,或其它递归滤波器),但标示产生混响信号的通用处理。这样的处理可能涉及非线性处理或时变处理,诸如信号幅值或延迟长度的低频调制。在这样的情况下,术语“混响滤波器”将不适用于线性非时变(LTI)系统的严格技术意义。实际上,“混响滤波器”是指输出混响信号的处理,可能地包括从内存读取计算的或记录的混响信号的机构。
感知水平、距离、室内大小、特色及音质等这些参数对所得音频信号有影响。此外,混响的感知特性取决于输入信号的时间特性及频谱特性[1]。将注意力集中在一项重要的感觉、即响度上,可观察到感知混响的响度与输入信号的非平稳性单调相关。直观而言,包络中变化大的音频信号激励高水平的混响,而允许其于较低水平变成可听闻的。在典型方案中,其中,以分贝为单位表示的长期DRR为正,在其能量包络增加的瞬时,直接信号几乎可完全掩蔽混响信号。另一方面,每当信号结束时,先前激励的混响尾部在间隙中变明显,该间隙超过由后掩蔽的斜坡(slope)(至多200毫秒)及听觉系统积分时间(中等水平至多200毫秒)所确定的最短时间。
为了示出此点,图4a示出合成音频信号及人工混响信号的时间信号包络,图4b示出预测响度及使用响度计算模型计算的部分响度函数。具有短的前置延迟50毫秒的RIR被用于此处,删除早期反射并以指数性衰减白噪声合成混响的后期部分[2]。输入信号已根据谐波宽带信号及包络函数产生,以感知有短衰减的一个事件及有长衰减的第二事件。虽然长事件产生较多总混响能量,但不意外的是短声音被感知为有较多混响。当较长事件的衰减斜坡掩蔽混响时,短声音在混响建立前已经消失,因而开放间隙,在该间隙中混响被感知。请注意此处使用的掩蔽定义包括完全掩蔽及部分掩蔽[3]。
虽然已经多次获得这样的观察[4、5、6],但仍然值得强调,原因在于其定性地示出为何部分响度模型可应用于本工作的背景下。实际上,已经指出混响的感知来自于听觉系统中的流隔离处理[4、5、6],且受直接声音造成混响的部分掩蔽的影响。
前文考虑推动响度模型的使用。相关研究由Lee等人进行,其注意力焦点聚焦在当直接收听时RIR的主观衰减率的预测[7],及回放水平对混响的效应[8]。使用以响度为基础的早期衰减时间的混响预测器在[9]中被提出。与该项研究工作相反地,本文提出的预测方法以部分响度的计算模型(及以其简化版本寻求低复杂度实现方式)处理直接信号及混响信号,及由此考虑输入(直接)信号对感觉的影响。近来,Tsilfidis及Mourjopoulus[10]研究用于单声道录音中的后期混响的抑制的响度模型。直接信号的估值是使用频谱减法而根据混响输入信号来计算的,利用控制混响处理的计算听觉掩蔽模型导出混响掩蔽指数。
多声道合成器及其它装置的特征是加入混响来从感知观察点让声音变得更佳。另一方面,产生的混响为人工信号,当以低水平加至信号时几乎无法听闻,但当以高水平添加时导致不自然且不怡人声音的最终混合信号。让情况变得更恶化的是如在图4a及4b背景下的讨论,混响的感知水平具有强信号依赖性,因此某个混响滤波器对多个信号中的一种信号可能效果极佳,但对不同种信号可能没有听觉效果,或甚至更差地可能产生严重听觉假影。
与混响有关的另一问题是混响后的信号是用于实体或个体诸如人类的耳朵的,产生具有直接信号分量及混响信号分量的混合信号的最终目标是该实体感知此混合信号或“混响后的信号”为声音良好或声音自然。但听觉感知机构或声音如何由个体实际上感知的机制不仅就人类听觉有作用的频带而言是强非线性的,同时也就在该频带内部的信号处理而言也是强非线性的。此外,已知人类的声音感知不太受声压水平的控制,声压水平例如可由数字样本求平方算出,反而声音感知较受响度感觉控制。此外,针对包括直接信号分量及混响信号分量的混合信号,混响分量的响度感觉不仅取决于直接信号分量类别,同时也取决于直接信号分量的水平或响度。
因此存在对于确定在由直接信号分量及混响信号分量所组成的混合信号中对于混响感知水平的度量的需求,以处理前述与实体的听觉感知机构有关的问题。
发明内容
因此本发明的目的是提供一种用于确定混响感知水平的度量的装置或方法,或提供一种以改良特性处理音频信号的音频处理器或方法。
该目标通过根据权利要求1所述的用于确定混响感知水平的度量的装置、根据权利要求10所述的确定混响感知水平的度量的方法、根据权利要求11所述的音频处理器、根据权利要求14所述的处理音频信号的方法、或根据权利要求15所述的计算机程序而予实现。
本发明基于确立信号中混响感知水平的度量是由响度模型处理器所确定,该响度模型处理器包括感知滤波级,以使用该感知滤波器来滤波直接信号分量、混响信号分量或混合信号分量从而模型化实体的听觉感知机构。基于感知滤波后的信号,响度估计器使用该滤波后的直接信号估计第一响度度量,并使用该滤波后的混响信号或该滤波后的混合信号估计第二响度度量。然后,组合器组合该第一度量与第二度量而获得对于混响感知水平的度量。更明确言之,优选通过计算差值来组合两个不同响度度量的方式提供了相比于对该直接信号或混合信号的感觉来说,混响感有多强的量化值或度量。
为了计算响度度量,可运用绝对响度度量,更明确言之,直接信号、混合信号或混响信号的绝对响度度量。可选地,当在响度模型中,第一响度度量是通过使用直接信号作为刺激及混响信号作为噪声而确定,第二响度度量是通过使用混响信号作为刺激及直接信号作为噪声计算时,也可计算部分响度。更明确言之,通过在组合器内组合这两个度量,获得混响感知水平的有效度量。所发现的是这种有效度量无法通过产生单一响度度量而单独确定,举例言之,通过单独使用直接信号或单独使用混合信号或单独使用混响信号。取而代之,由于人类听觉的交互依赖性,组合从这三个信号中任意两个不同地得出的度量,可以高度准确地确定或模型化信号的混响的感知水平。
优选地,响度模型处理器提供时/频变换,并获取耳传递函数和听觉模型所模型化的实际上出现在人类听觉的激励模式。
在优选实施方式中,对于混响感知水平的度量被转发至预测器,该预测器实际上以有效的标度诸如桑尼(Sone)标度提供混响的感知水平。该预测器优选通过收听测试数据训练(train),优选线性预测器的预测器参数包括常数项和定标因子。常数项优选取决于实际使用的混响滤波器特性,在混响滤波器的一个实施方式中,针对用在人工混响器中的直接的众所周知的混响滤波器可被给定特性参数T60。但例如即使该特性为未知,当混响信号分量并非独立可行,反而在本发明装置处理前已经从混合信号分开时,可推导出对该常数项的估计。
附图说明
随后将就附图描述本发明的优选实施方式,附图中:
图1为用于确定混响感知水平的度量的装置或方法的框图;
图2a为响度模型处理器的优选实施方式的说明图;
图2b示出响度模型处理器的又一优选实施方式;
图3示出响度模型处理器的又一优选实现方式;
图4a、图4b示出时间信号包络及相对应响度及部分响度的实例;
图5a、图5b示出用于训练预测器的实验数据的信息;
图6示出人工混响处理器的框图;
图7示出依据本发明的实施方式指示评估量表的三个表;
图8示出被实现以出于人工混响的目的使用混响感知水平的度量的音频信号处理器;
图9示出依赖混响的时间平均感知水平的预测器的优选实现方式;及
图10示出用于计算特异性响度的优选实施方式的、得自1997年Moore Glasberg、Baer公开文献的等式。
具体实施方式
混响的感知水平取决于输入音频信号及脉冲响应二者。本发明的实施方式针对当晚期混响出现在数字音频效应时,量化此项观察及基于直接信号及混响信号的分开信号路径而预测晚期混响的感知水平。发展出该问题的解决的方式及随后通过考虑混响时间对预测结果的影响加以延伸。这导致具有两个输入变量的线性回归模型,其可以高准确度预测感知水平,如从收听测试得出的实验数据所示。具有不同复杂化度及计算复杂度的这种模型的变化例被就其准确度作比较。应用用途包括控制用于音频信号的自动混合的数字音频效应。
本发明的实施方式不仅可用于当直接信号及混响脉冲响应(RIR)为可各自单独取得时,预测语音及乐音的混响的感知水平。在其中出现混响后的信号的其它实施方式中,也适用本发明。但于此种情况下,将可包括直接/周围分离器或直接/混响分离器来从混合信号中分离直接信号分量及混响后的信号分量。然后这种音频处理器可用来改变该信号中的直接/混响比以产生更好的声音的混响后的信号或更好的声音的混合信号。
图1示出确定对于在混合信号中混响感知水平的度量的装置,包含直接信号分量或原始信号(dry signal,干燥信号)分量100以及混响信号分量102。原始信号分量100及混响信号分量102被输入响度模型处理器104。响度模型处理器被配置为接收直接信号分量100及混响信号分量102,及如第2a图的示出,额外包括感知滤波级104a及随后连接的响度计算器104b。响度模型处理器在其输出产生第一响度度量106及第二响度度量108。两个响度度量被输入组合器110,用于组合第一响度度量106及第二响度度量108来最终获得混响感知水平的度量112。依据该实现方式,感知水平的度量112可输入预测器114用于基于针对不同信号帧的至少两个感知水平的度量的平均值而预测混响的感知水平,如后文将就图9的背景详细说明。但图1的预测器114是选择性的,并且实际上将感知水平的度量变换成某个数值范围或单位范围,诸如桑尼(Sone)单位范围,该范围可用于给定与响度有关的量化数值。但未由预测器114处理的感知水平的度量112的其它用途也可用在例如图8的音频处理器中,该音频处理器并非必要依赖由预测器114的输出值,反而也可以直接形式或优选地,以一种平滑的形式处理感知水平的度量112,在该处随着时间的平滑化为优选,以便没有对混响后的信号的强变化水平校正,或如下所述的图6示出或图8示出的增益因子g的强变化水平校正。
更明确言之,感知滤波级被配置为滤波直接信号分量、混响信号分量或混合信号分量,其中,该感知滤波级被配置为模型化诸如人类的一个实体的听觉感知机构而获得滤波后的直接信号、滤波后的混响信号或滤波后的混合信号。依据该实现方式,该感知滤波级可包含并行操作的两个滤波器,或可包含储存装置和单个的滤波器,原因在于一个且同一个滤波器实际上可用于滤波三个信号亦即混响信号、混合信号及直接信号中的每一个。但在此背景中,发现虽然图2a示出n个滤波器模型化该听觉感知机构,但实际上两个滤波器就够了,或单个滤波器滤波由混响信号分量、混合信号分量及直接信号分量所组成的组群中的两个信号。
响度计算器104b或响度估计器被配置为用于使用该滤波后的直接信号估计第一响度相关的度量,并使用该滤波后的混响信号或滤波后的混合信号估计第二响度的度量,在此处,该混合信号从该直接信号分量与混响信号分量的混叠导出。
图2c示出计算对于混响感知水平的度量的四种优选模式。实施方式1依赖部分响度,其中,直接信号分量x及混响信号分量r二者被用于响度模型处理器,但其中,为了确定第一响度度量EST1,混响信号被用作为刺激而直接信号被用作为噪声。为了确定第二响度度量EST2,情况改变,直接信号分量被用作为刺激及混响信号分量被用作为噪声。然后,由组合器所产生的校正感知水平的度量是第一响度度量EST1与第二响度度量EST2间的差值。
但额外存在有其它计算上有效的实施方式,指示于图2c的行2、3、及4。这样的更具运算效率的度量依赖于计算包含混合信号m、直接信号x、及混响信号n的三个信号的总响度。取决于图2c末列指示的由组合器所执行的要求计算,第一响度度量EST1为混合信号或混响信号的总响度,及第二响度度量EST2为直接信号分量x或混合信号分量m的总响度,其中,实际组合如图2c示出。
在又一实施方式中,响度模型处理器104在频域操作,如参考图3详加说明。在这种情况下,响度模型处理器,特别是响度计算器104b针对各频带提供第一度量及第二度量。全部n个频带的这样的第一度量随后在用于第一分支的加法器104c和用于第二分支的加法器104d相加或组合来最终地获得针对宽带信号的第一度量及针对宽带信号的第二度量。
图3示出已经就图1、图2a、图2b、图2c在某些方面讨论的响度模型处理器的优选实施方式。更明确言之,感知滤波级104a包括针对各个分支的时频变换器300,其中在图3的实施方式中,x[k]指示刺激及n[k]指示噪声。时/频变换信号被转发至耳传递函数方块302(请注意另外,耳传递函数可在时频变换器的前运算,获得相似的结果,但有较高运算负荷),该方块302的输出被输入运算激励模式方块304,接着是时间积分方块306。然后在方块308,计算本实施方式的特异性响度,其中,方块308相对应于图2a的响度计算器方块104b。接着执行在方块310的频率积分,其中,方块310相对应于已经如图2b的104c及104d描述的加法器。须注意方块310产生针对刺激及噪声第一集合的第一度量,和针对刺激及噪声第二集合的第二度量。更明确言之,考虑图2b,用于计算第一度量的刺激为混响信号且噪声为直接信号;而对于计算第二度量,情况改变,刺激为直接信号分量且噪声为混响信号分量。因此为了产生两个不同响度度量,图3示出的处理程序执行两次。但唯一的改变出现在方块308,方块308有不同操作如后文在图10的背景进一步讨论,因此方块300至306示出的步骤只需执行一次,而时间积分方块306的结果可被储存以计算针对图2c中实施方式1的第一估计响度和第二估计响度。应注意针对图3c的其它实施方式2、3、4,方块308被以针对各分支的个别方块“计算总响度”置换,其中,在本实施方式中,无论哪个信号被考虑为刺激或噪声,该方块都是一样的。
接着讨论图3示出响度模型的进一步细节。
图3中响度模型的实现方式遵照[11、12]的说明而有修改,容后详述。预测的训练和有效化使用得自[13]所述收听测试的数据,并容后详述。响度模型的施加用于预测晚期混响的感知水平也容后详述。之后是实验结果。
本章节描述部分响度模型的实现方式、被用作为混响的感知水平的计算预测的背景真值(ground truth)的收听测试数据、以及基于该部分响度模型的所提出的预测方法。
响度模型计算当以掩蔽信号n[k]同时出现时,信号x[k]的部分响度Nx,n[k]。
Nx,n[k]=f(x[k],n[k]). (1)
虽然早期模型处理稳定背景噪声下的响度感知,但有某些工作研究在共同调制随机噪声背景[14]、复合环境声音[12]背景、及乐音信号[15]背景中的响度感知。图4b示出这里使用的响度模型计算的图4a所示实例信号的各分量的总响度及部分响度。
本研究工作使用的模型类似[11、12]中的模型,该模型由Fletcher、Munson、Stevens、及Zwicker的早期模型绘制,有若干修改容后详述。响度模型的框图显示于图3。输入信号使用短时间傅里叶变换(STFT)而在频域处理。在[12]中,6个不等长度的离散傅里叶变换(DFT)用来在全部频率获得频率分辨率及时间分辨率与人类听觉系统的良好匹配。在本工作中,为了运算效率只使用一个DFT长度,具有以48kHz取样率的21毫秒帧长度、50%重叠、及Hann窗口函数。通过外耳及中耳的传递被以固定滤波器模拟。激励函数使用水平依赖性激励模式,针对在相等矩形带宽(ERB)上隔开的40个听觉滤波带来进行计算。除了因STFT的开窗(windowing)所致的时间积分外,递归积分以25毫秒的时间常数实现,这只有在激励信号衰减时才有效。
特异性部分响度亦即在各个听觉滤波带激起的部分响度根据[11]的等式(17)至(20),从得自关注信号(刺激)及关注噪声的激励水平求出,示出在第10图。这样的等式涵盖四个情况:信号高于噪声中的听觉阈值或否,以及混合信号的激励小于100dB或否。若无任何关注信号馈送入该模式,即n[k]=0,则结果等于刺激x[k]的总响度Nx[k]。
更明确言之,图10示出公开文献“阈值、响度及部分响度的预测模型”,B.C.J.Moore、B.R.Glasberg、T.Baer,J.Audio Eng.Soc.第45卷第4期1997年4月的等式17、18、19、20。本参考文献描述连同背景声音一起出现的信号情况。虽然背景可以是任意类型的声音,但在本参考文献中称作为“噪声”来区别背景与任何待判定其响度的信号。噪声的存在减低信号的响度,此效应称作为部分掩蔽。当信号的响度水平从阈值升高至高于阈值20至30dB时,信号的响度极为快速地增高。该文章内,假设噪声中出现的信号的部分响度可通过在频率上加和相对于频率信号的部分特异性响度(基于ERB标度)来计算。通过考虑四个有限情况,可推导出用于计算部分特异性响度的等式。ESIG表示由信号激发的激励,及ENOISE表示由噪声激发的激励。假设ESIG>ETHRQ且ESIG+ENOISE<1010。总特异性响度N’TOT定义如下:
N'TOT=C{[(ESIG+ENOISE)G+A]a-Aa}
假设收听者可区分(partition)信号的特异性响度与噪声的特异性响度之间的在给定中心频率的特异性响度,但认为总特异性响度。
N′TOT=N′SIG+NNOISE.
此项假设是恒定的,原因在于在大部分测量部分掩蔽的实验中,收听者首先单独听到噪声,及然后听到噪声加信号。假设单独噪声高于阈值,单独噪声的特异性响度为
N'NOISE=C[(ENOISEG+A)a-Aa].
因此,若信号的特异性响度单纯通过从总特异性响度所得噪声的特异性响度推导,则结果将为
N'SIG=C{[(ESIG+ENOISE)G+A]a-Aa}-C[(ENOISEG+A)a-Aa]
实际上,在信号与噪声之间区分特异性响度的方式显然随信号与噪声间的相对激励而改变。
考虑四个情况,指示如何在不同信号水平分配特异性响度。设ETHRN表示当正弦信号在背景噪声的被掩蔽阈值时,由正弦信号激起的峰值激励。当ESIG远低于ETHRN时,全部特异性响度被分配给该噪声,该信号的部分特异性响度趋近于零。第二,当ENOISE远低于ETHRQ时,该部分特异性响度趋近于当信号为无噪声(in quiet)时的值。第三,当信号在其被掩蔽阈值时,具有激励ETHRN,认为部分特异性响度等于针对信号在绝对阈值的值。最后,当信号位于窄带中间并远高于其被掩蔽阈值时,信号响度趋近于其未经掩蔽的值。因此,该信号的部分特异性响度也趋近于其未经掩蔽值。
考虑这样的各种边界状况的暗示。在被掩蔽阈值,特异性响度等于当信号为无噪声时在阈值的响度。该特异性响度比从如上方等式预测的特异性响度更低,推定原因在于该信号的若干特异性响度被分配给噪声。为了获得该信号的正确特异性响度,假设分配给该噪声的特异性响度以因子B增加,其中,
将此因子施加至如上N’SIG的等式的第二项获得
NSIG'=C{[(ESIG+ENOISE)G+A]a-Aa}-C{[(ETHRN+ENOISE)G+A]a-(ETHRQG+A)a}.
假设该信号在被掩蔽阈值时,其峰值激励ETHRN等于KENOISE+ETHRN,其中,K为要求较高掩蔽器水平的听觉滤波器的输出的信噪比。使用锯齿噪声的掩蔽实验所得K的近期估值显示,在极低频率,K显著增加,变成大于一单位。在参考文献中,K值作为频率的函数估计。该K值从低频的高水平减至于高频的常数低水平。不幸地,低于100赫兹的中心频率并无K值,因此取代如上方程序中的ETHRN的从50Hz至100Hz的值导致:
N'SIG=C{[(ESIG+ENOISE)G+A]a-Aa}-C{[(ENOISE(1+K)+ETHRQ)G+A]a-(ETHRQG+A)a}
当ESIG=ETHRN时,该等式指定在无噪声绝对阈值时信号的峰值的特异性响度。
当信号远高于其被掩蔽阈值时,换言之,当ESIG>>ETHRN时,信号的特异性响度趋近于当不存在有背景噪声时的特异性响度值。这意味着分配给该噪声的特异性响度变极小。为了适应这一点,如上方程序被通过导入额外项而修改,该项取决于ETHRN/ESIG的比,此项随E减低,ESIG被增加得高于被掩蔽阈值的相对应值。如此如上方程序变成图10的等式17。
这是当ESIG>ETHRN及ESIG+ENOISE≤1010时针对N’SIG的最终等式。末项的指数0.3是经实验选择的,因而作为信噪比的函数,获得噪声中调性响度的数据的良好匹配。
随后考虑下述ESIG<ETHRN的情况。在ESIG恰低于ETHRN的限制情况下,特异性响度将趋近于图10中等式17中的给定值。当ESIG降至远低于值ETHRN的值时,特异性响度快速地变极小。这是由图10中的等式18达成。括号中的第一项确定当ESIG减至小于ETHRN时,特异性响度减低的比率。当ESIG<ETHRN时,这描述针对无噪声信号的特异性响度与激励之间的关系,但等式18中的ETHRN已经被取代。括号中的第一项确保当ESIG趋近于ETHRN时,特异性响度趋近于藉第10图的等式17所界定的值。
至目前为止所述部分响度的等式也适用于ESIG+ENOISE<1010时。同理也适用于图10的等式(17)的推导,针对ENOISE≥ETHRN及ESIG+ENOISE>1010的情况可导出如上对图10的等式19的所列出的等式。C2=C/(1.04x106)0.5。同理,通过应用如对图10的等式(18)的推导所使用的相同论理,针对ESIG<ETHRN及ESIG+ENOISE>1010的情况可导出如图10的等式20所列出的等式。
注意以下各点。这种先前技术模型针对本发明施用,在第一阶段(run)中,SIG相对应于例如直接信号作为“刺激”,Noise相对应于例如混响信号或混合信号作为“噪声”。第二阶段中,如图2c中第一实施方式背景的讨论,那么,SIG相对应于混响信号作为“刺激”,“噪声”相对应于直接信号。而后,获得两个响度度量,然后通过组合器组合,优选通过形成差值组合。
为了评估所述响度模型用于预测晚期混响的感知水平工作的适合性,以从收听者反应所产生的背景真值的本源被优选。为了达成该目的,来自若干收听测试主题的研究[13]的数据被用于本案,简短摘述如下。由多个图形用户接口(GUI)所组成的收听测试筛选哪个显示出不同直接信号的具有不同人工混响状况的混合信号。要求收听者将感知的混响量以0分至100分的分数评级。此外,两个锚定(anchor)信号出现在10分及90分。要求收听者将感知的混响量以0分至100分的分数评级。此外,两个锚定信号出现在10分及90分。该等锚定信号从相同直接信号具有不同人工混响状况产生。
用来产生测试项的直接信号为长度各约4秒的语音、个别乐器、及不同风格的音乐的单声录音。使用大部分源自于无回声录音项目,但也有含小量原先混响的商业录音。
RIR表示晚期混响并通过使用指数衰减的白噪声以频率依赖性衰减率而产生。衰减率被选择为使得混响时间从低频减至高频,始于基本混响时间T60。本研究工作中早期反射忽略不计。混响信号r[k]及直接信号x[k]经定标和相加,使得其根据ITU-R BS.1771[16]的平均响度度量比匹配期望DRR,以使全部测试信号混合具有相等长期响度。测试的全部参与者皆在音频领域工作且有主观收听测试经验。
用于预测方法的训练和验证/测试的背景真值数据获得自两个收听测试,分别标示为A及B。数据集合A包含14位收听者对54个信号的评级。收听者重复测试一次,平均评级得自各项全部28个评级。54个信号通过组合6个不同直接信号和9个立体声混响状况产生,T60∈{1,1.6,2.4}秒及DRR∈{3,7.5,12}dB,且无前置延迟。
B的资料得自14位收听者对60个信号的评级。信号是通过使用15个直接信号及36个立体声混响状况产生。混响状况取样四个参数,亦即T60、DRR、前置延迟、及ICC。针对各个直接信号,选择4个RIR使得两者不含前置延迟,而另两者有50毫秒的短前置延迟,并且两者为单声且另两者为立体声。
后文将讨论图1中组合器110的优选实施方式的额外特征。
预测方法的基本输入特征根据等式(2),从混响信号r[k]的部分响度Nr,x[k](以直接信号x[k]为干扰因素)与x[k]的响度Nx,r[k](此处r[k]为干扰因素)间的差计算。
△Nr,x[k]=Nr,x[k]-Nx,r[k] (2)
等式(2)背后的论理是差△Nr,x[k]是对相比于直接信号的感觉而言混响感觉有多强烈的度量。取该差值也发现使得预测结果相对于回放水平为约略不变。回放水平对所研究的感觉有影响[17、8],但影响程度比部分响度Nr,x随回放水平增加而增加所反映的影响更微小。典型地,乐音录音相比于在12至20dB的较低水平,在中至高水平(始于约75-80dB的SPL)更为混响。这种效应在DRR为正的情况下特别明显,“对于几乎全部记录的音乐”都有效[18],但并非全部情况皆如此,对交响乐而言“收听者远超过临界距离”[6]。
混响的感知水平随回放水平的减低而减低可由下述事实最佳地解释:混响的动态范围小于直接声音的动态范围(或,混响的时频表征更紧密,而直接声音的时频表征更稀疏[19])。在这种情况下,混响信号比直接声音更可能降至听觉的阈值以下。
虽然等式(2)描述两个响度度量Nr,x[k]与Nx,r[k]之间的差作为组合操作,但也可进行其它组合,诸如乘法、除法或甚至加法。总而言之,由两个响度度量指示的两个可选方式足以被组合来获得两个可选方式对结果的影响。然而,实验显示差值可得到该模型的最佳值,亦即该模型的结果中匹配收听测试至良好程度,故差值为优选组合方式。
随后,描述图1示出预测器114的细节,其中,这样的细节指优选实施方式。
后文描述的预测方法为线性,并使用最小平方拟合于模型系数的运算。预测器的简单结构优异地用在下述情况,用于训练及测试预测器的数据集合的大小有限,当使用有较大自由度例如神经网络的回归方法时,可能导致模型的过度拟合。基线预测器是依据等式(3)通过线性回归导出,具有系数ai,K为帧中的信号长度,
模型只有一个独立变量,亦即△Nr,x[k]的平均。为了追踪改变及可实现实时处理,使用泄漏(leaky)积分器可求取平均值计算的近似值。使用数据集合A用于训练所导出的模型参数为a0=48.2及a1=14.0,其中,a0等于全部收听者及项目的平均评级。
图5a示出数据集合A的预测感觉。可知预测与平均收听者评级有中等关联,相关性系数为0.71。请注意回归系数的选择不影响此相关性。如下图所示,针对由相同直接信号所产生的各个混合信号,分数具有集中在靠近对角线的特性形状。该形状指示虽然基线预测器可预测R至某种程度,但其不反映T60对评级的影响。数据点的视觉检视示出对T60有线性依赖性。如果T60值为已知,如同控制音频效果的情况,其容易并入线性回归模型来导出增强的预测
从数据集合A导出的模型参数为a0=48.2,a1=12.9,a=10.2。针对各个数据集合所得结果分开显示于图5b。结果的评估被进一步细节描述于下节。
可选地,虽然可进行对于更多或更少个方块的平均,只要至少两个方块进行平均即可,但因线性等式理论,当整块音乐的平均高达某个帧时可获得最佳结果。但针对实时应用,取决于实际应用,优选减少平均帧数目。
第9图额外地示出由a0及a2·T60定义的常数项。第二项a2·T60已经被选择以位于不仅将该等式应用至单个混响器的位置,即其中图6的滤波器600不变的情况。该等式当然为常数项,但因此取决于实际使用的图6的混响滤波器606提供灵活性来对具有其它T60值的其它混响滤波器使用真正相同的等式。如技术领域公知的,T60为描述某个混响滤波器的参数,特别表示混响能量已经从初始最大混响能量值减少60dB。典型地,混响曲线随时间而减少,因此T60指示时间周期,其中,通过信号激励产生的混响能已经减少60dB。经由以表示类似信息的参数(RIR的长度的参数)例如T30置换T60,获得在预测准确度方面类似结果。
后文中,模型被使用平均收听者评级与预测感觉间的相关性系数r、平均绝对误差(MAE)、及均方根误差(RMSE)来进行评估。以两倍交叉有效化(two-fold cross validation)进行实验,即使用数据集合A训练并使用数据集合B测试预测器,使用数据集合B训练及使用数据集合A测试来重复实验。针对训练及测试,分开地对两阶段所得评估量求平均。
针对预测模型及结果显示于表1。预测器获得10.6分的带有RMSE的准确结果,。每项的个别收听者评级的标准偏差平均被给定为从平均(每项的全部收听者的评级的平均值)的离散的度量,针对数据集合A,及针对数据集合B,与RMSE的比较指示至少与收听测试中的平均收听者同等准确。
数据集合的预测准确度略有差异,例如针对MAE及RMSE二者使用数据集合A测试时比平均值低一分(如表中列举),及使用数据集合B测试时比平均高一分。用于训练及测试的评估量表为可被比较,标明避免预测器的过度拟合。
为了辅助实现这种预测模型的经济实现,如下实验研究如何以使更少计算复杂度影响预测结果的准确度的方式来使用响度特征,。实验聚焦在以总响度估值替代部分响度计算,并聚焦在激励模式的简化实现。
替代使用部分响度差△Nr,x[k],利用直接信号的响度Nx[k]、混响信号的响度Nr[k]、及混合信号的响度Nm[k]的三个差值检验总响度估值,如等式(5)-(7)所示。
△Nm-x[k]=Nm[k]-Nx[k] (5)
等式(5)基于假设混响信号的感知水平可表示为通过添加混响至原始信号所造成的总响度差(增加)。
遵照如同对等式(2)的部分响度差的类似论理后,使用混响信号及混合信号或直接信号分别的总响度差的响度特征被定义于等式(6)及(7)。预测感觉的度量的导算方式为如同当单独收听时混响信号的响度,带有相减项以模型化部分掩蔽,并分别对于从混合信号或直接信号导出的回放水平进行标准化。
△Nr-m[k]=Nr[k]-Nm[k] (6)
△Nr-x[k]=Nr[k]-Nx[k] (7)
最后,在额外实验中,研究展开函数实现的影响。这对许多应用情况特别有意义,原因在于使用水平依赖性激励模式要求高运算复杂度的实现方式。实验采用与针对的相似处理,但使用一个没有扩展的响度模型和一个有水平不变扩展函数的响度模型,导致表2所示结果。扩展的影响似乎可忽略。
因此指示图2c的实施方式2、3、4的等式(5)、(6)及(7)示出针对信号分量或信号的不同组合,即使无部分响度但有总响度,也可获得混合信号中混响感知水平的良好值或度量。
接着在图8的背景下讨论确定混响感知水平的度量的优选应用。图8示出用于从在输入800所输入的直接信号分量产生混响后的信号的音频处理器。直接或原始信号分量被输入混响器801,可以类似图6的混响器606。输入800的原始信号分量额外地输入设备802以确定感知响度的度量,可如图1、图2a及图2c、图3、图9及图10背景的讨论那样地实现。装置802的输出是针对混合信号中混响的感知水平的度量R,该度量R被输入控制器803。控制器803在又一输入接收对于混响感知水平的度量的目标值,及由此目标值及实际值R,再度求出于输出804的值。
该增益值被输入处置器805,该处置器805被配置为在本实施方式中处置由混响器801所输出的混响信号分量806。如图8示出,装置802额外地接收混响信号分量806,如图1及其它描述用于确定感知水平的度量的装置的图的背景讨论。处置器805的输出被输入加法器807,其中图8的实施方式中,处置器的输出包括处置后的混响分量,加法器807的输出指示混合信号808,其具有如由目标值所确定的感知混响。控制器803可被配置为实现本领域界定用于反馈控制的控制法则中的任意一个,其中,目标值为设定值,装置产生的值R为实际值,增益804被选择为使得实际值R趋近于输入控制器803的目标值。虽然图8示出混响信号由处置器805中的增益处置,处置器805特别包括乘法器或加权器,但其它实现方式也可行。例如一种其它实现方式为并非混响信号分量806而是原始信号分量由处置器处置,如可选线路809指示。在这种情况下,如由混响器801输出的未经处置的混响信号分量将被输入加法器807,如可选线路810示出。当然,即使原始信号分量及混响信号分量的处置也可执行为在由加法器807所输出的混合信号808中导入或设定混响感知水平的某个度量。一个其它实现方式例如是混响时间T60被处置。
本发明使用可变计算复杂度的响度模型提供对混响、特别是语音及乐音中的晚期混响的感知水平的简单且稳健的预测。预测模块已经使用从三个收听测试所推导出的主观数据训练及评估。至于起点,当图6的RIR606的T60为已知时,使用部分响度模型已经得出具有高准确度的预测模型。当考虑到部分响度模型原先尚未发展出如图10背景下讨论的使用直接声音及混响声音的刺激时,此项结果从感知的触发点也令人关注。随后对预测方法的输入特征计算上的修改导致一系列简化模型,该等模型对现有数据集合也达成可相比较的效能。这样的修改包括使用总响度模型及简化扩展函数。本发明的实施方式也适用于更为多样化的RIR,包括早期反映及更大的前置延迟。本发明也可用于确定及控制其它类型加法或混响音频效应的感知响度贡献。
虽然已经以装置背景描述若干方面,但显然这样的方面也表示相对应于方法的描述,其中,方块或装置相对应于方法步骤或方法步骤的特征。同理,以方法步骤的背景描述的方面也表示相对应于装置的相对应方块或项或特征结构的描述。
根据某些实现要求,本发明的实施方式可以硬件或以软件的方式实现。实现方式可使用数字储存介质执行,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,其具有可电子读取控制信号储存于其上,该信号与(或可与)可编程计算机系统协作,以执行相应方法。
根据本发明的若干实施方式包括具有可电子式读取控制信号的非暂时性或实体数据载体,该控制信号可与可编程计算机系统协作,以执行相应方法之一。
大致言之,本发明的实施方式可实现为具有程序代码的计算机程序产品,该程序代码当计算机程序产品在计算机上运行时可执行该方法中的一个。该程序代码例如可储存在机器可读取载体上。
其它实施方式包括储存在机器可读取载体上的用于执行本文所述方法之一的计算机程序。
因此,换言之,本发明方法的实施方式为一种具有程序代码的计算机程序,该程序代码当该计算机程序在计算机上运行时用于执行本文所述方法之一。
因此,本发明方法的又一实施方式为包含记录于其上的用于执行本文所述方法之一的计算机程序的数据载体(或数字储存介质,或计算机可读取介质)。
因此,本发明方法的又一实施方式为表示用于执行本文所述方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列例如可被配置为通过数据通信连接,例如通过因特网传送。
又一实施方式包含处理构件,例如计算机或可编程逻辑设备,其被配置为或适用于执行本文所述方法之一。
又一实施方式包括其上安装有用于执行本文所述方法之一的计算机程序的计算机。
在若干实施方式中,可编程逻辑设备(例如现场可编程门阵列)可用来执行本文描述的方法的部分或全部功能。在若干实施方式中,现场可编程门阵列可与微处理器协作来执行本文所述方法之一。大致上该方法优选通过任何硬件装置执行。
前述实施方式仅供举例说明本发明的原理。应了解对本文所述配置及细节的修改和变化将是本领域技术人员显然易见的。因此,其意在仅受未决权利要求的限定而非受由以描述和解说本文中实施方式所示出的特定细节所限制。
参考文献列表
[1]A.Czyzewski,“A method for artificial reverberation quality testing,”J.Audio Eng.Soc.,vol.38,pp.129-141,1990.
[2]J.A.Moorer,“About this reverberation business,”Computer MusicJournal,vol.3,1979.
[3]B.Scharf,“Fundamentals of auditory masking,”Audiology,vol.10,pp.30-40,1971.
[4]W.G.Gardner and D.Griesinger,“Reverberation level matchingexperiments,”in Proc.of the Sabine Centennial Symposium,Acoust.Soc.ofAm.,1994.
[5]D.Griesinger,“How loud is my reverberation,”in Proc.Of the AES98th Conv.,1995.
[6]D.Griesinger,“Further investigation into the loudness of runningreverberation,”in Proc.of the Institute of Acoustics(UK)Conference,1995.
[7]D.Lee and D.Cabrera,“Effect of listening level and backgroundnoise on the subjective decay rate of room impulse responses:Using timevarying-loudness to model reverberance,”Applied Acoustics,vol.71,pp.801-811,2010.
[8]D.Lee,D.Cabrera,and W.L.Martens,“Equal reverberance matchingof music,”Proc.of Acoustics,2009.
[9]D.Lee,D.Cabrera,and W.L.Martens,“Equal reverberance matchingof running musical stimuli having various reverberation times and SPLs,”inProc.of the20th International Congress on Acoustics,2010.
[10]A.Tsilfidis and J.Mourjopoulus,“Blind single-channel suppressionof late reverberation based on perceptual reverberation modeling,”J.Acoust.Soc.Am,vol.129,pp.1439-1451,2011.
[11]B.C.J.Moore,B.R.Glasberg,and T.Baer,“A model for theprediction of threshold,loudness,and partial loudness,”J.Audio Eng.Soc.,vol.45,pp.224-240,1997.
[12]B.R.Glasberg and B.C.J.Moore,“Development and evaluation of amodel for predicting the audibility of time varying sounds in the presence ofthe background sounds,”J.Audio Eng.Soc.,vol.53,pp.906-918,2005.
[13]J.Paulus,C.Uhle,and J.Herre,“Perceived level of latereverberation in speech and music,”in Proc.of the AES130th Conv.,2011.
[14]J.L.Verhey and S.J.Heise,“Einfluss der Zeitstruktur desHintergrundes auf die Tonhaltigkeit und Lautheit des tonalen Vordergrundes(in German),”in Proc.of DAGA,2010.
[15]C.Bradter and K.Hobohm,“Loudness calculation for individualacoustical objects within complex temporally variable sounds,”in Proc.of theAES124th Conv.,2008.
[16]International Telecommunication Union,RadiocommunicationAssembly,“Algorithms to measure audio programme loudness and true-peakaudio level,”Recommendation ITU-R BS.1770,2006,Geneva,Switzerland.
[17]S.Hase,A.Takatsu,S.Sato,H.Sakai,and Y.Ando,“Reverberanceof an existing hall in relation to both subsequent reverberation time and SPL,”J.Sound Vib.,vol.232,pp.149-155,2000.
[18]D.Griesinger,“The importance of the direct to reverberant ratio inthe perception of distance,localization,clarity,and envelopment,”in Proc.ofthe AES126th Conv.,2009.
[19]C.Uhle,A.Walther,O.Hellmuth,and J.Herre,“Ambienceseparation from mono recordings using Non-negative Matrix Factorization,”inProc.of the AES30th Conf.,2007.
Claims (15)
1.一种用于确定对在由直接信号分量(100)和混响信号分量(102)所组成的混合信号中的混响的感知水平的度量的装置,所述装置包含:
响度模型处理器(104),包括用于滤波所述原始信号分量(100)、所述混响信号分量(102)或所述混合信号的感知滤波级,其中,所述感知滤波级被配置为用于模型化实体的听觉感知机构以获得滤波后的直接信号、滤波后的混响信号、或滤波后的混合信号;
响度估计器,用于使用所述滤波后的直接信号估计第一响度度量,并用于使用所述滤波后的混响信号或所述滤波后的混合信号估计第二响度度量,其中,所述滤波后的混合信号从所述直接信号分量与所述混响信号分量的混叠得出;以及
组合器(110),用于组合所述第一响度度量与所述第二响度度量(106、108)以获得对于所述混响的感知水平的度量(112)。
2.根据权利要求1所述的装置,其中,所述响度估计器(104b)被配置为:估计所述第一响度度量,以使所述滤波后的直接信号被视为刺激,并且所述滤波后的混响信号被视为噪声;或估计所述第二响度度量(108),以使所述滤波后的混响信号被视为刺激,并且所述滤波后的直接信号被视为噪声。
3.根据权利要求1或2所述的装置,其中,所述响度估计器(104b)被配置为计算所述第一响度度量为所述滤波后的直接信号的响度,或计算所述第二响度度量为所述滤波后的混响信号或所述混合信号的响度。
4.根据任一前述权利要求所述的装置,其中,所述组合器(110)被配置为使用所述第一响度度量(106)和所述第二响度度量(108)计算差值。
5.根据权利要求1所述装置,还包括:
预测器(114),用于基于对于不同信号帧(k)的所述感知响度的至少两个度量的平均值(904)来预测所述混响的感知水平。
6.根据权利要求5所述的装置,其中,所述预测器(114)被配置为在预测(900)中使用常数项(901、903)、取决于所述平均值(904)的线性项、及定标因子(902)。
7.根据权利要求5或6所述的装置,其中,所述常数项(903)取决于描述用于在人工混响器内产生所述混响信号的所述混响滤波器(606)的所述混响参数。
8.根据任一前述权利要求所述的装置,其中,所述滤波级包括时频变换级(300),
其中,所述响度估计器(104b)被配置为对多个频带获得的结果进行加和(104c、104d),以推导对包括所述直接信号分量和所述混响信号分量的宽带混合信号的所述第一响度度量和所述第二响度度量(106、108)。
9.根据任一前述权利要求所述的装置,其中,所述滤波级(104a)包含:
耳传递滤波器(302)、激励模式计算器(304)、和时间积分器(306)来推导所述滤波后的直接信号、所述滤波后的混响信号、或所述滤波后的混合信号。
10.一种确定在包括直接信号分量(100)和混响信号分量(102)的混合信号中对混响感知水平的度量的方法,所述方法包括:
滤波(104)所述原始信号分量(100)、所述混响信号分量(102)或所述混合信号,其中,所述滤波使用感知滤波级执行,所述感知滤波级被配置为用于模型化实体的听觉感知机构以获得滤波后的直接信号、滤波后的混响信号、或滤波后的混合信号;
使用所述滤波后的直接信号估计第一响度度量;
使用所述滤波后的混响信号或所述滤波后的混合信号估计第二响度度量,其中,所述滤波后的混合信号是从所述直接信号分量和所述混响信号分量的混叠得出;以及
组合(110)所述第一响度度量与所述第二响度度量(106、108)以获得对所述混响的感知水平的度量(112)。
11.一种用于从直接信号分量(800)产生混响后的信号(808)的音频处理器,所述音频处理器包括:
混响器(801),用于混响所述直接信号分量(800)以获得混响后的信号分量(806);
根据权利要求1至9中任一项所述的用于确定在包含所述直接信号分量和所述混响后的信号分量的所述混响后的信号中对于所述混响的感知水平的度量的装置;
控制器(803),用于接收由用于确定所述混响感知水平的度量的装置(802)所产生的所述感知水平(R),并用于根据所述感知水平和目标值来产生控制信号(804);
处置器(805),用于根据所述控制值(804)处置所述原始信号分量(800)或所述混响信号分量(806);以及
组合器(807),用于组合所述处置后的原始信号分量及所述处置后的混响信号分量,或用于组合所述原始信号分量和所述处置后的混响信号分量,或用于组合所述处置后的原始信号分量和所述混响信号分量以获得所述混合信号(808)。
12.根据权利要求11所述的装置,其中,所述处置器(805)包括用于通过增益值加权所述混响信号分量的加权器,所述增益值由所述控制信号确定,或
其中,所述混响器(801)包括可变滤波器,所述滤波器可响应于所述控制信号(804)而进行变化。
13.根据权利要求12项的装置,其中,所述混响器(801)具有固定滤波器,
其中,所述处置器(805)具有所述加权器以产生所述处置后的混响信号分量,以及
其中,所述加法器(807)被配置为将所述直接信号分量和所述处置后的混响信号分量相加获得所述混合信号(808)。
14.一种用于从直接信号分量(800)产生混响后的信号(808)的处理音频信号的方法,所述方法包括:
混响(801)所述直接信号分量(800)以获得混响后的信号分量(806);
根据权利要求10所述的确定在包括所述直接信号分量和所述混响后的信号分量的所述混响后的信号中对于混响感知水平的度量的方法;
接收通过用于确定混响感知水平的度量的所述方法(802)所产生的所述感知水平(R),
根据所述感知水平和目标值而产生(803)控制信号(804);
根据所述控制值(804)处置(805)所述原始信号分量(800)或所述混响信号分量(806);以及
组合(807)所述处置后的原始信号分量和所述处置后的混响信号分量,或组合所述原始信号分量和所述处置后的混响信号分量,或组合所述处置后的原始信号分量和所述混响信号分量以获得所述混合信号(808)。
15.一种具有程序代码的计算机程序,当所述计算机程序在计算机上运行时所述程序代码用于执行根据权利要求10或14所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161448444P | 2011-03-02 | 2011-03-02 | |
US61/448,444 | 2011-03-02 | ||
EP11171488A EP2541542A1 (en) | 2011-06-27 | 2011-06-27 | Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal |
EP11171488.7 | 2011-06-27 | ||
PCT/EP2012/053193 WO2012116934A1 (en) | 2011-03-02 | 2012-02-24 | Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103430574A true CN103430574A (zh) | 2013-12-04 |
CN103430574B CN103430574B (zh) | 2016-05-25 |
Family
ID=46757373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280011192.5A Active CN103430574B (zh) | 2011-03-02 | 2012-02-24 | 用于确定对于混响感知水平的度量的装置与方法、音频处理器及用于处理信号的方法 |
Country Status (14)
Country | Link |
---|---|
US (1) | US9672806B2 (zh) |
EP (2) | EP2541542A1 (zh) |
JP (1) | JP5666023B2 (zh) |
KR (1) | KR101500254B1 (zh) |
CN (1) | CN103430574B (zh) |
AR (1) | AR085408A1 (zh) |
AU (1) | AU2012222491B2 (zh) |
BR (1) | BR112013021855B1 (zh) |
CA (1) | CA2827326C (zh) |
ES (1) | ES2892773T3 (zh) |
MX (1) | MX2013009657A (zh) |
RU (1) | RU2550528C2 (zh) |
TW (1) | TWI544812B (zh) |
WO (1) | WO2012116934A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107750042A (zh) * | 2014-01-03 | 2018-03-02 | 杜比实验室特许公司 | 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频 |
CN111164673A (zh) * | 2017-10-20 | 2020-05-15 | 索尼公司 | 信号处理装置、方法和程序 |
CN111512367A (zh) * | 2017-09-21 | 2020-08-07 | 弗劳恩霍夫应用研究促进协会 | 提供处理的降噪且混响降低的音频信号的信号处理器和方法 |
US11749252B2 (en) | 2017-10-20 | 2023-09-05 | Sony Group Corporation | Signal processing device, signal processing method, and program |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9055374B2 (en) * | 2009-06-24 | 2015-06-09 | Arizona Board Of Regents For And On Behalf Of Arizona State University | Method and system for determining an auditory pattern of an audio segment |
CN108806704B (zh) | 2013-04-19 | 2023-06-06 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
CN108810793B (zh) | 2013-04-19 | 2020-12-15 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
EP2840811A1 (en) * | 2013-07-22 | 2015-02-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder |
EP2830043A3 (en) | 2013-07-22 | 2015-02-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for Processing an Audio Signal in accordance with a Room Impulse Response, Signal Processing Unit, Audio Encoder, Audio Decoder, and Binaural Renderer |
US9319819B2 (en) | 2013-07-25 | 2016-04-19 | Etri | Binaural rendering method and apparatus for decoding multi channel audio |
WO2015041477A1 (ko) | 2013-09-17 | 2015-03-26 | 주식회사 윌러스표준기술연구소 | 오디오 신호 처리 방법 및 장치 |
US10204630B2 (en) | 2013-10-22 | 2019-02-12 | Electronics And Telecommunications Research Instit Ute | Method for generating filter for audio signal and parameterizing device therefor |
BR112016014892B1 (pt) | 2013-12-23 | 2022-05-03 | Gcoa Co., Ltd. | Método e aparelho para processamento de sinal de áudio |
EP4294055A1 (en) * | 2014-03-19 | 2023-12-20 | Wilus Institute of Standards and Technology Inc. | Audio signal processing method and apparatus |
CN108966111B (zh) | 2014-04-02 | 2021-10-26 | 韦勒斯标准与技术协会公司 | 音频信号处理方法和装置 |
US9407738B2 (en) * | 2014-04-14 | 2016-08-02 | Bose Corporation | Providing isolation from distractions |
EP2980789A1 (en) * | 2014-07-30 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhancing an audio signal, sound enhancing system |
PL3311379T3 (pl) * | 2015-06-17 | 2023-03-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Kontrola głośności dla interaktywności użytkownika w systemach kodowania audio |
US9590580B1 (en) | 2015-09-13 | 2017-03-07 | Guoguang Electric Company Limited | Loudness-based audio-signal compensation |
GB201615538D0 (en) * | 2016-09-13 | 2016-10-26 | Nokia Technologies Oy | A method , apparatus and computer program for processing audio signals |
EP3389183A1 (en) | 2017-04-13 | 2018-10-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for processing an input audio signal and corresponding method |
GB2561595A (en) * | 2017-04-20 | 2018-10-24 | Nokia Technologies Oy | Ambience generation for spatial audio mixing featuring use of original and extended signal |
US9820073B1 (en) | 2017-05-10 | 2017-11-14 | Tls Corp. | Extracting a common signal from multiple audio signals |
JP2021129145A (ja) | 2020-02-10 | 2021-09-02 | ヤマハ株式会社 | 音量調整装置および音量調整方法 |
US11670322B2 (en) * | 2020-07-29 | 2023-06-06 | Distributed Creation Inc. | Method and system for learning and using latent-space representations of audio signals for audio content-based retrieval |
US12003951B2 (en) * | 2021-04-01 | 2024-06-04 | United States Of America As Represented By The Administrator Of Nasa | Statistical audibility prediction(SAP) of an arbitrary sound in the presence of another sound |
GB2614713A (en) * | 2022-01-12 | 2023-07-19 | Nokia Technologies Oy | Adjustment of reverberator based on input diffuse-to-direct ratio |
EP4247011A1 (en) * | 2022-03-16 | 2023-09-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for an automated control of a reverberation level using a perceptional model |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101341793A (zh) * | 2005-09-02 | 2009-01-07 | Lg电子株式会社 | 从立体声信号产生多声道音频信号的方法 |
WO2010070016A1 (en) * | 2008-12-19 | 2010-06-24 | Dolby Sweden Ab | Method and apparatus for applying reverb to a multi-channel audio signal using spatial cue parameters |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7644003B2 (en) | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US7583805B2 (en) * | 2004-02-12 | 2009-09-01 | Agere Systems Inc. | Late reverberation-based synthesis of auditory scenes |
US7949141B2 (en) * | 2003-11-12 | 2011-05-24 | Dolby Laboratories Licensing Corporation | Processing audio signals with head related transfer function filters and a reverberator |
US7495166B2 (en) | 2004-08-25 | 2009-02-24 | Pioneer Corporation | Sound processing apparatus, sound processing method, sound processing program and recording medium which records sound processing program |
KR100619082B1 (ko) * | 2005-07-20 | 2006-09-05 | 삼성전자주식회사 | 와이드 모노 사운드 재생 방법 및 시스템 |
JP4175376B2 (ja) * | 2006-03-30 | 2008-11-05 | ヤマハ株式会社 | オーディオ信号処理装置、オーディオ信号処理方法、及びオーディオ信号処理プログラム |
JP4668118B2 (ja) * | 2006-04-28 | 2011-04-13 | ヤマハ株式会社 | 音場制御装置 |
US8036767B2 (en) * | 2006-09-20 | 2011-10-11 | Harman International Industries, Incorporated | System for extracting and changing the reverberant content of an audio input signal |
WO2009039897A1 (en) | 2007-09-26 | 2009-04-02 | Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. | Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program |
EP2154911A1 (en) | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus for determining a spatial output multi-channel audio signal |
-
2011
- 2011-06-27 EP EP11171488A patent/EP2541542A1/en not_active Withdrawn
-
2012
- 2012-02-24 BR BR112013021855-0A patent/BR112013021855B1/pt active IP Right Grant
- 2012-02-24 WO PCT/EP2012/053193 patent/WO2012116934A1/en active Application Filing
- 2012-02-24 RU RU2013144058/08A patent/RU2550528C2/ru active
- 2012-02-24 TW TW101106353A patent/TWI544812B/zh active
- 2012-02-24 AU AU2012222491A patent/AU2012222491B2/en active Active
- 2012-02-24 CN CN201280011192.5A patent/CN103430574B/zh active Active
- 2012-02-24 MX MX2013009657A patent/MX2013009657A/es active IP Right Grant
- 2012-02-24 KR KR1020137025852A patent/KR101500254B1/ko active IP Right Grant
- 2012-02-24 JP JP2013555829A patent/JP5666023B2/ja active Active
- 2012-02-24 CA CA2827326A patent/CA2827326C/en active Active
- 2012-02-24 EP EP12706815.3A patent/EP2681932B1/en active Active
- 2012-02-24 AR ARP120100622A patent/AR085408A1/es active IP Right Grant
- 2012-02-24 ES ES12706815T patent/ES2892773T3/es active Active
-
2013
- 2013-08-31 US US14/016,066 patent/US9672806B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101341793A (zh) * | 2005-09-02 | 2009-01-07 | Lg电子株式会社 | 从立体声信号产生多声道音频信号的方法 |
WO2010070016A1 (en) * | 2008-12-19 | 2010-06-24 | Dolby Sweden Ab | Method and apparatus for applying reverb to a multi-channel audio signal using spatial cue parameters |
Non-Patent Citations (1)
Title |
---|
D.GRIESINGER: "FURTHER INVESTIGATION INTO THE LOUDNESS OF RUNNING REVERBERATION", 《PROC.OF THE INSTITUTE OF ACOUSTICS(UK) 》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107750042A (zh) * | 2014-01-03 | 2018-03-02 | 杜比实验室特许公司 | 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频 |
CN107750042B (zh) * | 2014-01-03 | 2019-12-13 | 杜比实验室特许公司 | 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频 |
CN111512367A (zh) * | 2017-09-21 | 2020-08-07 | 弗劳恩霍夫应用研究促进协会 | 提供处理的降噪且混响降低的音频信号的信号处理器和方法 |
CN111512367B (zh) * | 2017-09-21 | 2023-03-14 | 弗劳恩霍夫应用研究促进协会 | 提供处理的降噪且混响降低的音频信号的信号处理器和方法 |
CN111164673A (zh) * | 2017-10-20 | 2020-05-15 | 索尼公司 | 信号处理装置、方法和程序 |
US11749252B2 (en) | 2017-10-20 | 2023-09-05 | Sony Group Corporation | Signal processing device, signal processing method, and program |
US11805383B2 (en) | 2017-10-20 | 2023-10-31 | Sony Group Corporation | Signal processing device, method, and program |
CN111164673B (zh) * | 2017-10-20 | 2023-11-21 | 索尼公司 | 信号处理装置、方法和程序 |
Also Published As
Publication number | Publication date |
---|---|
WO2012116934A1 (en) | 2012-09-07 |
BR112013021855A2 (pt) | 2018-09-11 |
EP2681932B1 (en) | 2021-07-28 |
EP2681932A1 (en) | 2014-01-08 |
KR101500254B1 (ko) | 2015-03-06 |
CA2827326A1 (en) | 2012-09-07 |
CA2827326C (en) | 2016-05-17 |
TW201251480A (en) | 2012-12-16 |
AU2012222491A1 (en) | 2013-09-26 |
TWI544812B (zh) | 2016-08-01 |
ES2892773T3 (es) | 2022-02-04 |
MX2013009657A (es) | 2013-10-28 |
CN103430574B (zh) | 2016-05-25 |
RU2550528C2 (ru) | 2015-05-10 |
JP2014510474A (ja) | 2014-04-24 |
JP5666023B2 (ja) | 2015-02-04 |
AU2012222491B2 (en) | 2015-01-22 |
RU2013144058A (ru) | 2015-04-10 |
AR085408A1 (es) | 2013-10-02 |
EP2541542A1 (en) | 2013-01-02 |
US9672806B2 (en) | 2017-06-06 |
BR112013021855B1 (pt) | 2021-03-09 |
US20140072126A1 (en) | 2014-03-13 |
KR20130133016A (ko) | 2013-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103430574B (zh) | 用于确定对于混响感知水平的度量的装置与方法、音频处理器及用于处理信号的方法 | |
Postma et al. | Perceptive and objective evaluation of calibrated room acoustic simulation auralizations | |
Jot et al. | Analysis and synthesis of room reverberation based on a statistical time-frequency model | |
Huber et al. | PEMO-Q—A new method for objective audio quality assessment using a model of auditory perception | |
Hongisto et al. | Subjective and objective rating of airborne sound insulation–living sounds | |
RU2554552C2 (ru) | Устройство и способ для разложения входного сигнала с использованием заранее вычисленной эталонной кривой | |
RU2569346C2 (ru) | Устройство и способ генерирования выходного сигнала с применением блока разложения сигнала | |
RU2663345C2 (ru) | Устройство и способ масштабирования центрального сигнала и улучшения стереофонии на основе отношения сигнал-понижающее микширование | |
Lee et al. | Effect of listening level and background noise on the subjective decay rate of room impulse responses: Using time-varying loudness to model reverberance | |
Cecchi et al. | Low-complexity implementation of a real-time decorrelation algorithm for stereophonic acoustic echo cancellation | |
Ma et al. | Partial loudness in multitrack mixing | |
Uhle et al. | Predicting the perceived level of late reverberation using computational models of loudness | |
Rämö et al. | Perceptual frequency response simulator for music in noisy environments | |
Rubak | Coloration in room impulse responses | |
de Santis et al. | Perception & thresholds of nonlinear distortion using complex signals | |
Järveläinen et al. | Reverberation modeling using velvet noise | |
Dziechciński | A computer model for calculating the speech transmission index using the direct STIPA method | |
Lokki et al. | Analysis of room responses, motivated by auditory perception | |
Zeki | Digital modelling of guitar audio effects | |
Gottschalk et al. | Modelling suppression and comodulation masking release using the dual-resonance nonlinear filter | |
Weber et al. | Automated Control of Reverberation Level Using a Perceptional Model | |
Lokki et al. | An auditorily motivated analysis method for room impulse responses | |
Lachenmayr | Perception and Quantification of Reverberation in Concert Venues: Studying Reverberation Level, Spatial Distribution and Dynamics using Room-Enhancement Environments | |
Ma et al. | Modulation Spectral Features for Intrusive Measurement of Reverberant Speech Quality | |
van Dorp Schuitman et al. | Deriving room acoustical parameters using arrays and hearing models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Munich, Germany Applicant after: Fraunhofer Application and Research Promotion Association Address before: Munich, Germany Applicant before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. |
|
COR | Change of bibliographic data | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |