CN105684465B - 具有室内效应的声音空间化 - Google Patents

具有室内效应的声音空间化 Download PDF

Info

Publication number
CN105684465B
CN105684465B CN201480052602.XA CN201480052602A CN105684465B CN 105684465 B CN105684465 B CN 105684465B CN 201480052602 A CN201480052602 A CN 201480052602A CN 105684465 B CN105684465 B CN 105684465B
Authority
CN
China
Prior art keywords
transmission function
input signal
interior effect
effect transmission
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480052602.XA
Other languages
English (en)
Other versions
CN105684465A (zh
Inventor
格雷戈里·帕洛内
马克·埃梅里特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of CN105684465A publication Critical patent/CN105684465A/zh
Application granted granted Critical
Publication of CN105684465B publication Critical patent/CN105684465B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及一种声音空间化的方法,其中至少一个具有求和的滤波处理应用于至少两个输入信号(I(1),I(2),...,I(L)),所述滤波处理包括:-至少一个第一室内效应传递函数(Ak(1),Ak(2),…,Ak(L))的应用,所述第一传递函数特别适用于每一个输入信号;以及,-至少一个第二室内效应传递函数(Bmeank)的应用,所述第二传递函数共用于所有输入信号。该方法由此包括将加权因子(Wk(l))加权于至少一个输入信号的步骤,所述加权因子适用于每一个输入信号。

Description

具有室内效应的声音空间化
本发明涉及声音数据的处理,尤其涉及音频信号的空间化(被称为“3D渲染”)。
例如,在将以一定数量声道所呈现的编码3D音频信号解码成不同数量音频声道(例如两个音频声道)的音频信号,使之能在音响耳机中渲染出3D音响效果。
本发明也涉及多声道音频信号的发送和渲染,还涉及适用于由用户设备所采用的传感渲染装置的信号变换。这种情况是,例如,在音响耳机或者一对扬声器上渲染出具有5.1音效的场景。
本发明还涉及在视频游戏中的渲染或者出于空间化目的记录诸如存储在文档中的一个或多个声音样本。
在静态单声道源的情况下,立体化是基于在声源所需位置和两耳各自之间的传递函数来滤波单声道信号的。继而将所获得的双声道信号(两个声道)提供给音响耳机,并给听者一种在模拟位置所获得的声源感觉。因此,术语“双声道”涉及将音频信号渲染为具有室内效应。
模拟不同位置的各种传递函数可以在消声室内测量得到,形成了一组不存在室内效应的HRTF(Head Related Transfer Functions=“头部相关传递函数”)。
这些传递函数也可以在“标准”房间内测量,形成一组具有室内效应或者回响的BRIR(Binaural Room Impulse Response=“空间双耳脉冲响应”)。该组的BRIR因此对应于一组停留在室内指定位置和听者耳朵(真人头部或者仿真头部)之间的传递函数。
测量BRIR的常用技术包括将测试信号(例如扫描信号、二进制序列或者白噪音)连续发送到一组定位在绕着在耳朵里塞有麦克风的头部(真人头部或仿真头部)的实际扬声器中的每一个扬声器。这种测试信号有可能非实时对扬声器位置和两耳中每一个之间的脉冲响应进行重新构建(一般通过反卷积)。
一组HRTF和一组BRIR之间的差异主要在于脉冲响应的长度,HRTF大约为毫秒,而BRIR大约为秒。
因为滤波基于单声道信号和脉冲响应之间的卷积,利用BRIR来实现立体声化(包含了室内效应)的复杂性显著高于利用HRTF所实现的结果。可以利用这种技术去模拟,以耳机或者有限数量的扬声器来倾听室内由L扬声器所生成的多声道内容(L声道),足以将各个L扬声器都视作相对于听者定位理想的虚拟声源,在室内进行测量以模拟各个L扬声器的传递函数(左耳和右耳),然后将对应于扬声器的BRIR滤波器应用于各个L音频信号。将提供给每一个耳朵的信号累加起来,以便作为提供给音频耳机的双声道信号。
我们将馈入L扬声器的输入信号表示为I(l)(其中l=[1,L])。我们将各个耳朵所听到的各个扬声器BRIR表示为BRIR(I),并且我们将输出的双声道信号表示为Og/d。此后,“g”和“d”可理解为分别表示“左”和“右”。因此,多声道信号的空间化可写为:
其中:*表示卷积算子。
下面,指数l使得l∈[1,L]称之为L扬声器之一。我们对一个信号1具有一个BRIR
因此,参考图1,针对每一个扬声器都可呈现两个卷积(一个耳朵有一个卷积)(步骤S11到SlL)。
对于L扬声器来说,空间化由此需要2.L卷积。我们可以针对快速基于块执行的情况来计算复杂性Cconv。快速基于块的执行例如可由快速傅立叶变换(FFT)获得。文献“3D音频的提交和评估程序”(MPEG 3D音频)限定了计算Cconv的可能方程:
Cconv=(L+2).(nBlocks).(6.log2(2Fs/nBlocks))
在该公式中,L表示变换输入信号频率(每个输入信号都有一个FFT)FFTs的数量,2表示获得时序性双声道信号的傅利叶逆变换的数量(适用于两个双耳声道有2个傅利叶逆变换),6表示每个FFT的复杂因子,第二个2表示避免由于循环卷积产生问题所必要的补零,Fs表示每个BRIR的尺寸,而n块表示所使用的基于块的处理,这在延时不一定过高的讨论中更为现实,以及·表示相乘。
因此,对于通常使用n块=10,Fs=48000,L=22的情况,基于FFT的直接卷积的各个多声道信号样本的复杂性为Cconv=19049乘-加的运算。
对于在现今现有处理器(例如移动电话)上进行实际处理来说,这种复杂性仍太高,所以必须减少其复杂性且不会使得渲染出来的空间感大大降级。
为了让空间化具有良好性能,必须提供BRIR的完整时序信号。
本发明可改进这种情况。
其旨在大大减小具有室内效应的多声道信号的空间化的复杂性,同时尽可能保持其最佳的音质。
为此目的,本发明涉及声音空间化的方法,其包括至少一个求和的滤波处理,并将其施加于至少两个输入信号(I(1),I(2),…,I(L)),所述滤波处理包括:
-至少一个第一室内效应传递函数(Ak(1),Ak(2),…,Ak(L)的应用,该第一传递函数特别适用于各个输入信号;以及,
-至少一个第二室内效应传递函数(Bmeank),所述第二传递函数共用于所有输入信号。该方法由此包括用加权因子(Wk(l))加权至少一个输入信号的步骤,所述加权因子特别适用于各个输入信号。
输入信号对应于例如多声道信号的不同声道。这样使得滤波特别地适用于至少两个输出信号,以便实现空间化渲染(双声道或者三声道,或者利用涉及多于两个输出信号的周围声音进行渲染)。在一个特别的实施方式中,滤波处理正好传递两个输出信号,第一输出信号针对左耳进行空间化处理,而第二输出信号针对右耳进行空间化处理。使之有可能保留在低频下的左耳和右耳之间所存在关联的自然程度。
传递函数的物理性能(例如不同传递函数之间的能量或者关联)随着某个时间间隔的发展,使之有可能简化。随着这些时间间隔,传递函数因此可以通过均值滤波器来逼近。
室内效应传递函数的运用因此有利地根据这些间隔来划分。至少一个第一传递函数可以按照间隔来应用于每一输入信号,这些间隔不可能进行逼近。以均值滤波器所逼近的至少一个第二传递函数可以按照有可能进行逼近的间隔来滤波。
每一输入信号所共用的单个传递函数的应用基本上降低了将要进行空间化处理的计算数量。这种空间化的复杂性因此有利地得以减小。这种简化因此有利地减少处理时间,同时也降低用以进行这些计算的处理器(多个)上的负担。
此外,用于每一个输入信号的加权因子,在各种输入信号之间的能量差异可以纳入考虑之中,即便是对其进行的处理被均值滤波器作部分地逼近。
在一个特别的实施方式中,第一和第二传递滤波器分别代表:
-直接声音传播和这些传播的第一声音反射;及,
-在这些第一反射之后出现的扩散声场;
且本发明的方法进一步包括:
-分别适用于输入信号的第一传递函数;以及,
-适用于所有的输入信号都相同地应用第二传递函数,并引起由扩散声场效果的一般逼近。
因此,处理复杂性有利地通过这种逼近来降低。此外,这种逼近对处理质量的影响得以降低,因为这种逼近与扩散产生效果相关,并且不与直接声音传播有关。第一声音反射通常是第一系列的声波回声。在一个实际的示例实施方式中,假设存在有两个这种第一反射。
在另一个实施方式中,由融合了室内效应的脉冲响应构建出第一和第二传递函数的预备步骤,为了构建第一传递函数,包括以下操作:
-确定直接声波存在的开始时间;
-确定在第一反射之后出现扩散声场的开始时间;以及,
-选择,在脉冲响应中,在直接声波存在的开始时间和扩散场存在的开始之间按时序延伸的一部分响应,所选择那部分响应部分对应于第一传递函数。
在一个特别的实施方式中,扩散场存在的开始时间基于预定标准进行确定。在一个可能的实施方式中,在指定室内声响功率的频谱密度呈单一下降的检测通常表现了扩散场存在的开始,以及由此提供扩散场存在的开始时间。
可替换的是,在更简单的实施方式中,我们可以考虑,如果脉冲响应延伸超过N个样本,那么扩散场存在的开始时间例如发生在脉冲响应的N/2个样本之后。因此,其存在的开始时间是预定的并且对应于固定值。通常,该值例如可以是在融合了室内效应的脉冲响应的48000个样本之中的第2048个样本。
上述直接声波存在的开始时间可以对应于例如具有室内效应的脉冲响应的时序信号的开始。
在互补的实施方式中,第二传递函数由扩散场存在开始时间之后出现的时序性脉冲响应系列部分所构成。
在一种变形方式中,第二传递函数可以由室内的特性确定或者由预定的标准滤波器确定。
因此,融合了室内效应的脉冲响应有利地通过存在的开始时间而分隔为隔开的两个部分。这种分隔使其可以获得适用于这些部分中每一个的处理。例如,我们可以从脉冲响应中选出第一样本(第一个2048)用作滤波处理中的第一传递函数,并忽略剩下的样本(例如,从2048到48000)或者利用其它脉冲响应那些样本来求平均值。
这种实施方式的优势继而在于可以特别有利的方式来简化针对输入信号的滤波计算并增加由声音扩散所生成的噪音形式,这种扩散可以使用脉冲响应的另一半(例如如下所述的平均值)来计算,或者仅仅基于指定房间(音量、房间墙壁上的覆盖等)或者标准房间的特征所估计出来的预定脉冲响应来简单计算得出。
在另一种变形中,第二传递函数通过使用这类公式而得到:
其中k为输出信号的指数,
l∈[1;L]为输入信号的指数,
L为输入信号的数量,
Bnorm k(l)是归一化传递函数,在扩散场存在的开始时间之后,按时序从脉冲响应多个部分组成的组获得。
在一个实施方式中,第一和第二传递函数由多个双耳室内脉冲响应BRIR获得。
在另一个实施方式中,这些第一和第二传递函数由在指定房间中测量到的传播和回声形成的实验值获得。该处理因此基于实验数据进行。这种数据非常精确地反映了室内效应,并因此保证了高保真的渲染。
在另一个实施方式中,第一和第二传递函数由基准滤波器获得,例如,该滤波器利用反馈延迟网络进行合成。
在一个实施方式中,截断被应用于BRIR的开始。因此,对输入信号的应用没有影响的第一个BRIR样本有利地被移除。
在另一个特别的实施方式中,截断补偿延迟应用于BRIR的开始。这种补偿延迟补偿了截断引入的时间差。
在另一种实施方式中,截断应用于BRIR的结束。对输入信号的应用没有影响而存在的BRIR样本因此有利地被移除。在一个实施方式中,滤波处理包括了至少一个补偿延迟的应用,该延迟对应于直接声波开始时间和扩散场存在的开始时间之间的时间差。这有利地补偿由时移传递函数应用所引入的延迟。
在另一种实施方式中,第一和第二室内效应传递函数平行应用于输入信号。此外,至少一个补偿延迟被应用于由第二传递函数滤波过的输入信号。因此,这两种传递函数的同时处理可以应用于每一个输入信号。这种处理有利地减少执行本发明的处理时间。
在一个特别的实施方式中,能量校正增益系数应用于加权因子。
因此,至少一个能量校正增益系数被应用于至少一个输入信号。所输送的振幅因此有利地归一化。这种能量校正增益系数允许与空间化信号的能量保持一致。
它允许根据输入信号的关联程度来校正空间化信号的能量。
在一个特别的实施方式中,能量校正增益系数是输入信号之间关联的函数。信号之间的关联因此有利地被纳入考虑中。
在一个实施方式中,至少一个信号通过使用这种类型的公式而得到:
其中:k是输出信号的指数,
Ok是输出信号,
l∈[1;L]是输入信号之中一种输入信号的指数,
L是输入信号的数量,
I(l)是输入信号之中的一种输入信号,
Ak(l)是第一室内效应传递函数之中的一种室内效应传递函数,
是第二室内效应传递函数之中的一种室内效应传递函数,
Wk(l)是加权因子之中的一种加权因子,
z-iDD对应于补偿延迟的运用,
而··表示相乘和
*为卷积算子。
在另一个实施方式中,在运行第二传递函数之前,解相关步骤应用于输入信号。在实施方式中,因此至少一个输出信号通过应用这种类型的公式得到:
其中:Id(l)是所述输入信号之中的解相关输入信号,其它值已经在上面进行了限定。由相关信号的增加和解相关信号增加之间的能量差别所引起的能量不平衡由此被纳入考虑之中。
在一个特别的实施方式中,解相关在滤波之前进行。能量补偿步骤因此可以在滤波期间省略。
在一个实施方式中,至少一个输出信号通过应用这种类型的公式而得到:
其中:G(I(l))是确定的能量校正增益系数,其它值已经在上面进行了限定。可替换地,G并不取决于I(l)。
在一个实施方式中,加权因子通过应用这类公式而得出:
其中:k为输出信号的指数,
l∈[1;L]为输入信号之中一种输入信号的指数,
L为输入信号的数量,
其中:是第二室内效应传递函数之中的室内效应传递函数其能量,是与归一化增益相关的能量。
本发明也涉及电脑程序,其包含了执行上述方法的指令。
本发明可以通过声音空间化装置执行,其包括至少一个对至少两个输入信号((I(1),I(2),…,I(L))求和的滤波器,所述滤波器使用:
-至少一个第一室内效应传递函数(Ak(1),Ak(2),…,Ak(L)),且所述第一传递函数特别应用于每一个输入信号;以及,
-至少一个第二室内效应传递函数(Bmeank),且所述第二传递函数共用于所有输入信号。
该装置由此包括加权模块,用以利用加权因子对至少一个输入信号进行加权,所述加权因子具体应用于每一个输入信号。
这种装置可以是硬件形式,例如处理器或者工作存储器,通常是位于通信终端之中的。
本发明也可以输入信号作为音频信号的解码模块来执行,该模块包括了上述的空间化装置。
本发明的其它特征和优势会通过阅读下述本发明实施方式的详细说明以及参考附图而变得更为清晰,附图包括:
-图1示出了现有技术的空间化方法,
-图2示意性地示出了根据本发明一个实施方式的方法其步骤,
-图3示出了双耳脉冲响应BRIR,
-图4示意性地示出了根据本发明一个实施方式的方法及其步骤,
-图5示意性地示出了根据本发明一个实施方式的方法及其步骤,
-图6示意性地示出了一种能够执行根据本发明方法的装置。
图6示出了在一个装置中执行本发明的可能内容,该装置连接着连接终端TER(例如,电话、智能手机或类似物,或者联网平板电脑、联网电脑或类似)。这种装置TER包括接收装置(典型的是天线),用于接收经压缩的编码音频信号Xc;解码装置DECOD,在渲染音频信号(例如具有HDSET的耳塞的耳机中的双声道)之前,输送准备由空间化装置处理的解码信号X。当然,在一些情况下,如果空间化处理在相同的域中执行(例如在子带域中进行频率处理),保持部分解码的信号(例如,在子带域)是有利的。
仍然参考图6,空间化装置表现为下面元件的组合:
-硬件,典型的包括一个或多个的电路CIR,可与工作存储器MEM以及处理器PROC配合,
-以及软件,其i适用于如图2和4所示的示例流程的通用算法。
此处,硬件和软件元件之间的配合产生了一种技术效果:针对性相同的音频渲染(对于听者来说具有相同的感受),降低了空间化的复杂性,如下所述。
现在我们参考图2,其记载了从本发明意义上说的处理,其通过计算装置来执行。
在第一步骤S21中,准备数据。这种准备是可选择性的;信号可以在步骤S22中和没有该预处理的后续步骤中处理。
尤其是,该预处理包括各个BRIR的截断,以便省略在脉冲响应开始和结束时的非音频样本
为了在脉冲响应开始处进行截断TRUNC S,在步骤S211中,准备包括确定直接声波的开始时间,并按照下述步骤来执行:
-计算各个BRIR滤波器(1)的能量累计和。通常,这种能量通过将样本1到j的振幅的平方求和来计算,其中j在[1;J]中,且J是BRIR滤波器的样本数,
-计算最大能量滤波器valMax(在左耳和右耳的滤波器之间)的能量值,
-针对每一个扬声器1,我们计算各个BRIR滤波器(1)的能量超过相对于valMax所计算出来的某个dB阈值(例如valMax-50dB)时的指数,
-为所有BRIR保留的截断指数iT是所有BRIR指数之间的最小指数且被认为是直接声波开始时间。
所得到的指数iT因此对应于每个BRIR所被忽略的样本数量。如果采用更高的能量段,则使用矩形窗口在脉冲响应开始处的锐利截断会导致可听到的人工效果。因此,优选地,应用适当的淡入窗口;然而,如果预防被纳入到所选择的阈值中,这种窗口变得不是必要的,因为其实际上是听不到的(仅仅在听不见的信号被切断的时候)。
BRIR之间的同步性使其有可能为了执行起来简单而针对所有BRIR应用常量延迟,该同步性甚至有可能优化复杂性。
各个BRIRde截断都是为了省略在脉冲响应结束TRUNC E所听不见的样本,在步骤S212中,可以从与上述那些相似的步骤开始执行,但是上述步骤更为适于在脉冲响应结束时进行。使用矩形窗口在脉冲响应开始处的锐利截断可以在脉冲信号上产生人耳科听得到的人工效果,而回音的尾声可以听得到。因此,在一个实施方式中,应用适宜的淡出窗口。
在步骤22中,执行同步隔离ISOL A/B。这种同步隔离包括,针对每一个BRIR,分开“直接声音”和“第一反射”部分(直接声音,用A表示)以及“扩散声音”部分(扩散声音,用B表示)。对“扩散声音”部分所进行的处理有利地不同于对“直接声音”部分所执行的处理,不同之处在于优选地其在在处理“直接声音”部分的质量上要好于所处理“扩散声音”部分的质量。由此有可能优化质量/复杂性的比值。
特别是,为了获得同步隔离,所有BRIR所共用(此后使用术语“同步性”)的独特取样指数“iDD”得以确定,在脉冲响应剩余部分被认为是对应于扩散场的时候开始。脉冲响应BRIR(1)因此可分为两个部分:A(1)和B(1),其中两个部分的串联对应于BRIR(1)。
图3示出了样本2000的分区指数iDD。该指数iDD左边部分对应于部分A,该指数iDD右边部分对应于部分B。在一个实施方式中,这两个部分被隔开,不需要开窗口,以便经受不同的处理。可替换地,部分A(1)和B(1)之间开有窗口。
指数iDD特别针对可确定BRIR的室内。该指数的计算因此取决于谱包络、BRIR的关联或这些BRIR的超声回波图。例如,iDD可以通过这种类型的公式来确定:
其中:Vroom为所测量的室内容积。
在一个实施方式中,iDD是固定值,通常为2000。可替换地,iDD优选为动态变动的,取决于所捕获到的输入信号的环境。
左耳(g)和右耳(d)的输出信号,用Og/d表示并因此被写为:
其中:z-iDD对应于对iDD样本的补偿延迟。
这种延迟可通过存储在时序存储器(例如缓冲器)中所计算得到的值并在所需时刻回收它们而被应用于信号。
在一个实施方式中,在集成到音频编码器的情况下,A和B所选择的取样指数也被纳入帧长度的考虑中。确实,1024个样本的典型帧尺寸会导致选择A=1024而B=2048,从而保证B确实是所有BRIR的扩散场区域。
特别地,有利之处在于B的示出是多个A的尺寸,因为如果滤波通过FFT进行,那么A的FFT计算可以针对B再次使用。
扩散场的特征在于从统计学上看室内所有点都是相同的。因此,其频率响应对于模拟的扬声器来说变动非常少。本发明利用该特征,从而用单个“均值”滤波器Bmean来替代所有BRIR的所有扩散滤波器D(I),从而大大减少了由于多次卷积带来的复杂性。为此目的,再次参考图2,我们可以在步骤S23B中改变扩散场部分B。
在步骤S23B1中,计算均值滤波器Bmean的值。整个系统得到完美的校准是非常少见的,所以我们可以应用加权因子,其携带在输入信号中,以针对扩散场部分的每个耳朵获得单个卷积。因此BRIR在能量归一化滤波器中分开,因此可以在输入信号:
中获得归一化增益
其中:且具有表示Bg/d(l)能量的
接着,我们利用单个均值滤波Bmean g/d来逼近Bnorm g/d(l),该滤波器不再是扬声器1的函数,但是它也有可能是能量归一化的:
其中:
在一个实施方式中,该均值滤波器可以通过求时间样本的平均值而获得。可替换地,可以通过其它形式的求平均而获得,例如,通过求得功率频谱密度的平均值而获得。
在一个实施方式中,均值滤波器的能量可以直接使用所构建的滤波器来测量。在一种变形中,可以在假设的情况估计,滤波器Bnorm g/d(l)是反卷积的。在这种情况下,因为单一的能量信号加起来,我们可得到:
能量可以针对扩散场部分计算所有样本的。
在步骤S23B2中,计算加权因子Wg/d(l)的值。只计算应用到输入信号的一个加权因子,融合了扩散滤波器和均值滤波器的归一化:
由于均值滤波器是常数,由这个总和我们得到:
因此,L利用扩散场部分的卷积被滤波器的单个卷积所替代,替换为输入信号的加权之和。
在步骤S23B3中,我们选择性地计算了增益G,用以修正均值滤波器Bmean g/d.的增益。确实,在输入信号和非逼近滤波器之间卷积的情况下,不管输入信号之间的关联值是多少,由解关联滤波器也即Bg/d(l)的滤波会生成待求和的信号,这些信号也是需要接着进行解关联的。相反,在输入信号和被逼近均值滤波器之间卷积的情况下,从所过滤信号求和而获得的信号能量取决于输入信号之间所存在的关联值。
例如:
*如果所有的输入信号I(1)是相同的并具有相同的能量,且滤波器B(1)
都解除关联(因为扩散场)并具有相同能量,我们得到:
*如果所有的输入信号I(1)都解关联并具有相同能量,那么滤波器B(1)
具有相同能力,并由相同滤波器所替换,我们得到:
因为解关联的信号其能量叠加。
这种情况等同于前面的情况,相同之处在于从滤波得到的信号都是解关联的,第一种情况下通过输入信号解关联,以及第二种情况通过滤波器解关联。
*如果所有的输入信号I(1)相同,并具有相同能量,滤波器B(1)都具有
相同能量,但利用相同的滤波器替换,我们得到:
因为相同信号的能量正交相加(因为它们的振幅被相加起来)。
于是,
-如果两个扬声器同时激活,提供解关联信号,那么与传统方法相比执行
步骤S23B1和S23B2并没有获得增益。
-如果两个扬声器同时激活,提供了相同的信号,那么与传统方法相比执行步骤S23B1和S23B2所获得的增益为:
10.log10(L2/L)=10.log10(22/2)=3.01dB。
-如果三个扬声器同时激活,提供相同信号,那么与传统方法相比执行步骤
S23B1与S23B2而获得的增益为:
10.log10(L2/L)=10.log10(32/3)=4.77dB
上述情况对应于相同或者解关联信号的极端情况。这些情况是真实存在的,然而:定位在两个扬声器之中的声源,虚拟的或者真实的,会给两扬声器提供相同的信号(例如利用VBAP(基于矢量幅值平移)技术)。在于3D系统中定位的情况下,这三个扬声器可以在相同水平位置接收相同的信号。
因此,我们可以执行补偿,从而获得与空间化信号的一致。
理想地,这种补偿增益G根据输入信号(G(I(l)))确定,并应用到加权输入信号的求和上:
增益G(I(l))可以通过计算在每个信号之间的关联而估算。也可以通过在求和之前及之后的比较信号能量而估算得到。这种情况下,增益G可以随时间动态变动,例如取决于输入信号之间的关联,而这一关联自身也是随着时间而变动的。
在简化的实施方式中,有可能设定常量增益,例如,G=-3dB=10-3/20
用于消除对昂贵关联估算的需求。常量增益继而可以离线应用于加权因子(因此给出),或者应用于滤波器Bmean g/d,省略了运行中所应用的额外增益。
一旦传递函数A和B隔离开,并且计算滤波器Bmean g/d(可选择性地为加权Wg/d(l)和G),这些传递函数和滤波应用到输入信号中。在第一实施方式中,可参考图4作说明,通过针对每一个耳朵应用直接(A)和扩散(B)滤波器对多声道信号的处理并按照以下步骤执行:
-如现有技术所述,我们通过直接(A)滤波器将多通道输入信号应用到(步骤S4A1到S4AL)有效滤波中。因此我们获得信号
-基于输入信号之间的关系,特别是它们的关联,我们可以选择性地在步骤S4B11中通过在之前加权输入信号的求和(步骤M4B1到M4BL)之后,将增益G应用到输出信号,而修正均值滤波器Bmean g/d的增益。
-在步骤S4B1中,我们使用扩散均值滤波器Bmean应用于多声道信号B作有效滤波。这个步骤在之前加权输入信号的求和(步骤M4B1到M4BL)之后发生。因此我们得到信号:
-我们将延迟iDD应用到信号从而在步骤S4B2中补偿隔离信号在B步骤期间所出现的延迟。
-信号相加。
-如果在脉冲响应开始的时候已经执行让截断移除了听不见的样本,那么我们在步骤S41中,将输入信号应用到延迟iT,其对应于所移除的听不到的样本。
可替换地,参考图5,信号不仅仅针对左右耳进行(上面的指数g和d),也针对k渲染装置(通常是扬声器)进行。
在第二实施方式中,增益G在输入信号求和之前应用,也即在加权步骤期间使用(步骤M4B1到M4BL)。
在第三实施方式中,解关联被应用于输入信号。因此,不管输入信号之间的初始关联是什么,经由滤波器Bmean卷积之后,信号解关联。解关联的有效执行可以(例如,使用反馈延迟网络)来避免使用昂贵的解关联滤波器。
因此,在实际上假设BRIR 48000样本长度的情况下,可以:
-在样本150和样本3222之间通过步骤S21所述的技术截断;
-通过步骤S22中所述技术分成两部分:1024个样本的直接场A和2048个样本的扩散场B,
于是,空间化的复杂性可以通过下面的公式逼近:
Cinv=CinvA+CinvB=(L+2).(6.log2(2.NA))+(L+2).(6.log2(2.NB))
其中:NA和NB是A和B的样本尺寸。
因此,对于n块=10,Fs=48000,L=22,NA=1024和NB=2048,每个多声道信号基于FFT卷积的复杂性是Cconv=3312相乘-相加。
然而,逻辑上说,该结果应该与只执行截断的简单方案相比,也即n块=10,Fs=3072,L=22:
Ctrunc=(L+2)(nBlocks)(6.log2(2.FS/nBlocks))=13339
因此现有技术和本发明之间的复杂性因子为19049/3312=5.75,且使用截断和现有技术之间的复杂性因子为13339/3312=4。
如果B的尺寸为A的尺寸的倍数,那么如果通过FFT块执行滤波,A的FFT的计算可以再次用于B。因此NA个点上我们需要进行L FFT,可以用于A和B所进行的滤波,NA点上的反FFT是为了获得时序上声道信号和频谱的相乘。
在这种情况下,该复杂性可以来逼近(对于另外的,(L+1)对应于频谱相乘,L针对A和l针对B:
Cinv2=(L+2).(6.log2(2.NA))+(L+1)=1607
因此,利用这种方式,我们获得了因子为2,并因此与截断和非截断现有技术相比因子为12和8。
本发明在MPEG-H 3D音频标准中直接应用。
当然,本发明并不限于上述实施方式,且还可以延伸到其它变形。
例如,已经在上述实施方式中,直接信号A不通过均值滤波器逼近。当然,我们可以使用A的均值滤波器来执行对来自扬声器的信号进行卷积(步骤S4A1到S4AL)。基于针对扬声器所生成的多声道内容进行处理的实施方式如上所述。当然,多通道内容可以由任意类型的声源生成,例如声音,乐器,任意噪音等。
基于某些计算域中(例如变换域)应用的公式如上所述。当然,本发明不限于这些公式,这些公式可以修正为可以在其它计算域中(例如,时间域,频率域,时间频率域等)应用。
上述实施方式基于在室内中所确定的BRIR值。当然,可以在任意类型的外部环境(例如,音乐厅,户外等)下都可以应用本发明。
上述实施方式是基于传递函数的应用。当然,可以执行多于两种传递函数。例如,可以同步隔离与直接扩散声音相关的部分,与第一反射相关的部分和与扩散声音相关的部分。

Claims (14)

1.声音空间化的方法,其包括至少一个具有求和的基于块的滤波处理并将其应用于至少两个输入信号(I(1),I(2),...,I(L)),所述至少两个输入信号是声音信号,所述滤波处理包括:
-对于在融合了室内效应的脉冲响应中的各个融合了室内效应的脉冲响应,
将所述脉冲响应划分为第一部分和第二部分,以下列方式进行所述划分:
所述脉冲响应的第一部分在第一数目的样本上延伸;以及,
所述脉冲响应的第二部分在第二数目的样本上延伸,所述第二数目的样本数倍于第一数目的样本;
-应用至少一个第一室内效应传递函数(Ak(1),Ak(2),…,Ak(L)),所述至少一个第一室内效应传递函数由至少一个第一部分构成且特别适用于每一个输入信号;以及,
-应用至少一个第二室内效应传递函数(Bmeank),所述至少一个第二室内效应传递函数由至少一个第二部分构成,其中相同的第二室内效应传递函数被应用于所有输入信号;
其中,所述方法包括将加权因子(Wk(l))加权于至少一个输入信号的步骤,所述加权因子适用于每一个输入信号。
2.根据权利要求1所述的方法,其特征在于,所述至少一个第一室内效应传递函数和至少一个第二室内效应传递函数分别表示为:
-直接声音传播和所述传播的第一声音反射;以及,
-所述第一声音反射之后扩散声音场出现;
且其中所述方法包括:
-第一室内效应传递函数的应用分别适用于输入信号;以及,
-第二室内效应传递函数的应用,对所有信号都是一样的并从扩散声音场效果的一般性逼近得到。
3.根据权利要求2所述的方法,包括预准备步骤,由融合室内效应的脉冲响应来构建所述至少一个第一室内效应传递函数和所述至少一个第二室内效应传递函数,所述预准备步骤包括,适用于至少一个第一室内效应传递函数的构建的如下步骤:
-确定直接声波存在的开始时间;
-确定在第一声音反射之后所述扩散声音场存在的开始时间;及,
-选择在脉冲响应中,其按时序在所述直接射波存在所述开始时间和扩散场存在的所述开始时间之间延伸的那部分响应,所述选择的那部分对应于所述至少一个第一室内效应传递函数。
4.根据权利要求3所述的方法,其特征在于,所述至少一个第二室内效应传递函数由扩散场存在的所述开始时间之后按时间开始的脉冲响应的成组部分构成。
5.根据权利要求3所述的方法,其特征在于,所述至少一个第二室内效应传递函数通过应用以下类型的公式而得到:
其中:k为输出信号的指数,
l∈[1;L]为输入信号的指数,
L为输出信号的数量,
为归一化室内效应传递函数,由扩散场存在所述开始时间之后按时间开始的脉冲响应的成组部分获得。
6.根据权利要求3所述的方法,其特征在于,所述滤波处理包括应用至少一种补偿延迟,其对应于直接声波所述开始时间和扩散场存在的所述开始时间之间的时间差。
7.根据权利要求6所述的方法,其特征在于,所述至少一个第一室内效应传递函数和所述至少一个第二室内效应传递函数同时应用于所述输入信号,且其中所述至少一种补偿延迟应用于所述至少一个第二室内效应传递函数滤波之后的输入信号。
8.根据权利要求1所述的方法,其特征在于,能量校正增益系数(G)被应用到加权因子(Wk(l))。
9.根据权利要求6所述的方法,其特征在于,所述方法的至少一个输出信号通过应用这种类型的公式而得到:
其中:K为输出信号的指数,
Ok为输出信号,
l∈[1;L]为所述输入信号之中一个输入信号的指数,
L是输入信号的数量,
I(l)所述输入信号之中的一个输入信号,
Ak(l)为所述第一室内效应传递函数之中的一个室内效应传递函数,
为所述第二室内效应传递函数之中的一个室内效应传递函数,
Wk(l)为所述加权因子中的一个加权因子,
对应于所述补偿延迟的应用,
而·表示相乘,且*表示卷积算子。
10.根据权利要求6所述的方法,其特征在于,包括了在应用第二室内效应传递函数之前对输入信号解关联的步骤,且其中所述方法的至少一个输出信号通过应用这种类型的公式而得到;
其中:k为输出信号的指数
Ok为输出信号,
l∈[1;L]为所述输入信号之中一个输入信号的指数,
L为输入信号的数量,
I(l)为所述输入信号之中的一个输入信号,
Id(l)为所述输入信号之中的解关联输入信号,
Ak(l)为所述第一室内效应传递函数之中的一个室内效应传递函数,为所述第二室内效应传递函数之中的一个室内效应传递函数,
Wk(l)为所述加权因子中的一个加权因子,
为对应于所述补偿延迟的应用,
而·表示相乘,且*表示卷积算子。
11.根据权利要求6所述的方法,其特征在于,包括了确定作为输入信号函数的能量校正增益系数的步骤,且其中至少一个输出信号通过应用这种类型的公式获得:
其中:k为输出信号的指数,
Ok为输出信号,
l∈[1;L]为所述输入信号之中一个输入信号的指数,
L为输入信号的数量,
I(l)为所述输入信号之中的一个输入信号,
G(I(l))为所述确定的能量校正增益系数,
Ak(l)为所述第一室内效应传递函数之中的一个室内效应传递函数,
为所述第二室内效应传递函数之中的一个室内效应传递函数,
Wk(l)为所述加权因子中的一个加权因子,
对应于所述补偿延迟的应用,
而·表示相乘,且*表示卷积算子。
12.根据权利要求1所述的方法,其特征在于,所述加权是通过应用这种类型的公式得到的:
其中:k为输出信号的指数,
l∈[1;L]为所述输入信号之中一个输入信号的指数,
L为输入信号的数量,
为所述第二室内效应传递函数之中的一个室内效应传递函数的能量,为与归一化增益有关的能量。
13.声音空间化装置,包括至少一个具有求和的基于块的滤波器,其被应用于至少两个输入信号(I(1),I(2),...,I(L)),所述至少两个输入信号是声音信号,所述装置包括划分模块,其用于对于在融合了室内效应的脉冲响应中的各个融合了室内效应的脉冲响应,将所述脉冲响应划分为第一部分和第二部分,以下列方式进行所述划分:
所述脉冲响应的第一部分在第一数目的样本上延伸;以及,
所述脉冲响应的第二部分在第二数目的样本上延伸,所述第二数目的样本数倍于第一数目的样本;
所述滤波器用于:
-至少一个第一室内效应传递函数(Ak(1),Ak(2),…,Ak(L)),所述至少一个第一室内效应传递函数由至少一个第一部分构成且特别适用于每一个输入信号;以及,
-至少一个第二室内效应传递函数(Bmeank),所述至少一个第二室内效应传递函数由至少一个第二部分构成,其中相同的第二室内效应传递函数被应用于所有输入信号;
其中,其包括加权模块(M4B1,MB2,…,M4BL),对至少一个输入信号利用加权因子(Wk(l))来加权,所述加权因子特别适用于每一个输入信号。
14.音频信号解码模块,包括了根据权利要求13所述的声音空间化装置。
CN201480052602.XA 2013-07-24 2014-07-04 具有室内效应的声音空间化 Active CN105684465B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1357299A FR3009158A1 (fr) 2013-07-24 2013-07-24 Spatialisation sonore avec effet de salle
FR1357299 2013-07-24
PCT/FR2014/051728 WO2015011359A1 (fr) 2013-07-24 2014-07-04 Spatialisation sonore avec effet de salle

Publications (2)

Publication Number Publication Date
CN105684465A CN105684465A (zh) 2016-06-15
CN105684465B true CN105684465B (zh) 2018-06-12

Family

ID=49876752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480052602.XA Active CN105684465B (zh) 2013-07-24 2014-07-04 具有室内效应的声音空间化

Country Status (8)

Country Link
US (1) US9848274B2 (zh)
EP (1) EP3025514B1 (zh)
JP (1) JP6486351B2 (zh)
KR (2) KR102310859B1 (zh)
CN (1) CN105684465B (zh)
ES (1) ES2754245T3 (zh)
FR (1) FR3009158A1 (zh)
WO (1) WO2015011359A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3001701B1 (en) * 2014-09-24 2018-11-14 Harman Becker Automotive Systems GmbH Audio reproduction systems and methods
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
JP1640846S (zh) * 2018-10-16 2019-09-09
CN109584892A (zh) * 2018-11-29 2019-04-05 网易(杭州)网络有限公司 音效模拟方法、装置、介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101133679A (zh) * 2004-09-01 2008-02-27 史密斯研究公司 个性化的头戴耳机虚拟
CN101263742A (zh) * 2005-09-13 2008-09-10 皇家飞利浦电子股份有限公司 音频编码

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2851879A1 (fr) * 2003-02-27 2004-09-03 France Telecom Procede de traitement de donnees sonores compressees, pour spatialisation.
JP2006279588A (ja) * 2005-03-29 2006-10-12 Yamaha Corp 多地点通信会議用端末
KR101370365B1 (ko) * 2005-09-13 2014-03-05 코닌클리케 필립스 엔.브이. 3d 사운드를 발생시키기 위한 방법 및 디바이스
JP2010118978A (ja) * 2008-11-14 2010-05-27 Victor Co Of Japan Ltd 音像定位制御装置および音像定位制御方法
US9431987B2 (en) * 2013-06-04 2016-08-30 Sony Interactive Entertainment America Llc Sound synthesis with fixed partition size convolution of audio signals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101133679A (zh) * 2004-09-01 2008-02-27 史密斯研究公司 个性化的头戴耳机虚拟
CN101263742A (zh) * 2005-09-13 2008-09-10 皇家飞利浦电子股份有限公司 音频编码

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Two-to-five channel sound processing;R Irwan,RM Aarts;《Audio Engineering Society》;20021130;第50卷(第11期);第914-926页 *

Also Published As

Publication number Publication date
US9848274B2 (en) 2017-12-19
EP3025514B1 (fr) 2019-09-11
EP3025514A1 (fr) 2016-06-01
US20160174013A1 (en) 2016-06-16
KR102206572B1 (ko) 2021-01-22
KR20210008952A (ko) 2021-01-25
KR102310859B1 (ko) 2021-10-12
JP6486351B2 (ja) 2019-03-20
FR3009158A1 (fr) 2015-01-30
CN105684465A (zh) 2016-06-15
WO2015011359A1 (fr) 2015-01-29
JP2016527815A (ja) 2016-09-08
ES2754245T3 (es) 2020-04-16
KR20160034942A (ko) 2016-03-30

Similar Documents

Publication Publication Date Title
JP5406956B2 (ja) オーディオ入力信号の反響コンテンツを抽出および変更するためのシステム
US8520871B2 (en) Method of and device for generating and processing parameters representing HRTFs
US8515104B2 (en) Binaural filters for monophonic compatibility and loudspeaker compatibility
US9763020B2 (en) Virtual stereo synthesis method and apparatus
KR101870058B1 (ko) 다채널 오디오에 응답하여 적어도 하나의 피드백 지연 네트워크를 이용한 바이노럴 오디오의 생성
US20140270216A1 (en) Single-channel, binaural and multi-channel dereverberation
US11457310B2 (en) Apparatus, method and computer program for audio signal processing
TR201815799T4 (tr) Bir audio sistemi ve onun operasyonunun yöntemi.
US20160247518A1 (en) Apparatus and method for improving a perception of a sound signal
CN105684465B (zh) 具有室内效应的声音空间化
WO2014203496A1 (ja) 音声信号処理装置、および音声信号処理方法
WO2022133128A1 (en) Binaural signal post-processing
Yuan et al. Externalization improvement in a real-time binaural sound image rendering system
Yim et al. Lower-order ARMA Modeling of Head-Related Transfer Functions for Sound-Field Synthesis Systme
CN116320908A (zh) 一种虚拟立体声的生成方法及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant