CN116918355A

CN116918355A - 用于双耳音频的虚拟器

Info

Publication number: CN116918355A
Application number: CN202280017203.4A
Authority: CN
Inventors: C·P·布朗; 郝宇星; 余雪梅; 杨子龙
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2021-02-25
Filing date: 2022-02-25
Publication date: 2023-10-20

Abstract

提供双耳虚拟化的系统和方法，该系统和方法通过对左右输入信号进行上混以产生左、右和中置声道，将左右输入信号以仅中置混响量值给出的比例分别与上混后的左右声道混音，然后在虚拟化之前混响混音的输出。这可以通过在两种不同的滤波模式之间模式切换来进一步简化：标准模式和简化模式。

Description

用于双耳音频的虚拟器

相关申请的交叉引用

本申请要求于2022年1月6日提交的美国临时申请号63/266,500和2021年3月31日提交的题为“LIGHTWEIGHT VIRTUALIZER FOR BINAURAL SIGNAL GENERATION FROM STEREO(用于从立体声生成双耳信号的轻量级虚拟器)”的美国临时申请号63/168,340和2021年2月25日提交的国际申请号PCT/CN 2021/077922的优先权，其内容通过引用全文并入本文。

技术领域

本公开涉及对双耳处理的改进。更具体地说，涉及用于提供用于双耳处理的轻量级过程的方法和系统。

背景技术

音频系统通常由音频源(例如无线电接收器、智能手机、笔记本电脑、台式电脑、平板电脑、电视等)和扬声器组成。在某些情况下，扬声器佩戴在听者耳朵近端，例如耳机(headphone)和耳塞(earbud)。在这种情况下，有时需要模拟不靠近耳朵的外部扬声器的音频质量。这可以通过合成声音以在将音频发送到近端扬声器(以下简称耳机)之前创造双耳效果来完成。

本节中描述的方法是可以采用的方法，但不一定是以前设想或采用的方法。因此，除非另有说明，否则不应假定本节中描述的任何方法仅因其包含在本节中而符合现有技术。同样，除非另有说明，否则与一种或多种方法有关的问题不应假定已基于本节在任何现有技术中得到认可。

发明内容

虽然在将音频发送到扬声器之前合成声音以创建双耳效果，但并非所有音频源都设置为进行这种合成，并且正常的合成电路过于内存密集且复杂，无法包含在耳机或耳塞中。

本文描述的方法和系统/设备提供了一种创建具有声道级控制混响的高质量双耳效果的较低复杂度(轻量级)的装置。除此之外，这允许在小型设备(包括耳机和耳塞)中实现双耳虚拟化，这在通常情况下是不可行的。

本文的公开描述了用于提供轻量级双耳虚拟化的系统和方法，该系统和方法可以包含在耳机、耳塞或其他对内存和复杂度敏感的设备中。系统和方法可以作为音频解码器的一部分实施。

本发明的一个实施例是一种提供双耳虚拟化的设备，该设备包括：左输入信号和右输入信号的输入；虚拟器；上混器，该上混器被配置为将左输入信号和右输入信号转换为右声道、左声道和中置声道；混音器，该混音器被配置为基于仅中置混响量值(center-onlyreverb amount value)将左输入信号与左声道组合，并基于仅中置混响量值将右输入信号与右声道组合，从而产生混音器输出；混响模块，该混响模块被配置为将混响应用于针对虚拟器的混音器输出。

本发明的一个实施例是一种提供双耳虚拟化的方法，该方法包括：接收左输入信号和右输入信号的输入；将左输入信号和右输入信号上混为右声道、左声道和中置声道；基于仅中置混响量值将左输入信号与左声道混音，并基于仅中置混响量值将右输入信号与右声道混音，从而产生混音器输出；将混响应用于针对虚拟器的混音器输出。

这些实施例是示例性的而不是限制性的：可以基于本文的公开来设想其它实施例。

附图说明

图1示出了轻量级虚拟器的示例使用。

图2示出了双耳音频的示例。

图3示出了轻量级虚拟器的示例设置。

图4示出了轻量级虚拟器的示例混响控制。

图5A-5B示出了轻量级虚拟器设置示例。图5A示出了简易的虚拟器，并且图5B示出了更高效的虚拟器。

图6A-6B示出了混响生成模式的示例。图6A示出了全模式，并且图6B示出了简化模式。

图7示出了针对轻量级虚拟器的示例上混器过程。

图8示出了轻量级虚拟器方法的示例。

具体实施方式

如本文所用，“轻量级”是指减少内存和复杂度的电路实施。这减少了电路的占用空间和能耗。

如本文所用，“HRIR”是指头部相关脉冲响应(head related impulse response)。这可以被认为是HRTF(head related transfer function，头部相关传递函数)的时域表示，该HRTF描述了耳朵如何从源接收声音。

如本文所用，“ITD”是指耳间时间差(interaural time difference)，该耳间时间差描述了每只耳朵接收来自源的给定声音实例的时间差。

如本文所用，“ILD”是指耳间电平差(interaural level difference)，该耳间电平差描述了每只耳朵接收来自源的给定声音实例的感知振幅差。

如本文所用，“巴特沃斯滤波器”(Butterworth filter)是指在通带中基本平坦的滤波器。

如本文所用，“双耳”是指分别发送到每只耳朵的、带有多个扬声器被放置在与听者一定距离处并且彼此相距一定距离的效果的声音。

如本文所用，“虚拟器”是指能够合成双耳声音的系统。

如本文所用，“上混”是将M个输入声道转换为N个输出声道的过程，其中N>M(整数)。“上混器”是执行上混的模块。

如本文所用，“信号”是从系统输入或输出的音频或视频的电子表示。信号可以是立体声的(左右信号分开)。如本文所用，“声道”是由系统处理的信号的一部分。声道的示例有左、右和中置(center)。

如本文所用，“模块”是指硬件、软件或固件中运行特定功能的一部分。模块在实施中不一定在物理上彼此分离。

如本文所用，“输入级”(input stage)是指为设备处理输入信号的接收的硬件和/或软件/固件。

图1示出了轻量级虚拟器的示例使用。用户有移动设备(105)，例如智能手机或平板电脑，该移动设备连接到立体声收听设备(110)，例如耳塞、有线或无线头戴式耳机或便携式扬声器。如果在移动设备(105)上运行的提供声音的应用程序(“应用”)不提供双耳声音，则具有轻量级虚拟器的收听设备(110)可以合成双耳效果。

图2示出了双耳声音的示例。在非合成系统中，两个扬声器(205)放置在听者的前面的左右两侧。该布置使得从每个扬声器到近一点的听者耳朵(220)的路径(210)与到对面耳朵(220)的路径(215)相比提供了非零ITD和ILD，即“串扰”。虚拟化试图为耳机(220)合成这种效果。

来自C.Phillip Brown,“A Structural Model for Binaural Sound Synthesis[双耳声音合成的结构模型]”IEEE Transaction on Speech and Audio Processing[IEEE语音与音频处理学报],第6卷，第5期，1998年9月的HRIR头部模型是ITD和ILD的组合。基于Woodworth和Schlosberg的公式(参见Woodworth,R.S.和Schlosberg,H.(1962),Experimental Psychology[实验心理学](Holt,New York),第348–361页)，ITD模型与头部半径和角度相关。将仰角设置为零时，公式变为：

ITD＝(a/c)(θ+sinθ) (1)

通过添加最小相位滤波器来考虑幅度响应(头影)，可以近似ILD信号。ILD滤波器还可以提供观察到的频率相关延迟。

通过级联ITD和ILD，时域滤波器为：

谐波发生器可以主要基于中置声道产生谐波。该谐波发生器旨在提供虚拟低音效果。该谐波发生器使用每个样本本身的乘法以产生谐波。

y＝x(1-0.5|x|) (5)

均衡器可以应用参量滤波器或搁架滤波器，如使用来自SO.J.Orfanidis,“High-Order Digital Parametric Equalizer Design[高阶数字参量均衡器设计]，”J.AudioEng.Soc.，第53卷，第11期，第1026-1046页(2005年11月)的方法。

图3示出了基本的轻量级虚拟器布局的示例。由左右输入信号组成的输入(305)在上混(310)之前被发送到混响模块，来为虚拟器模块(390)产生左右混响，并被发送到上混器模块(315)以将左右输入信号转换为左、右和中置声道。然后左、右和中置声道可以被发送到谐波发生器(320)和均衡器(325)以改善音质。虚拟器模块(390)将混响输出和左、右和中置声道合成耳机的双耳输出(395)。

在一些实施例中，双耳声音是通过基于总混响量值(total reverb amountvalue)调整振幅来控制声道上的混响量来合成的。

图4示出了混响控制的示例。在被虚拟器(400)处理之前，左右输入信号(405)和左右混响声道(410)被混音器(412)组合。它们由总混响值(reverb_amount)调整，该总混响值取值介于无混响(在本例中为0)和全混响(在本例中为1)之间。混音与总混响值成正比。混音可以被表示为：

其中α是总混响值，是混响信号输入(L _rev和R _rev)，x是原始输入(L和R声道)。混响量可以用一阶平滑滤波器逐块平滑，以避免混响量变化造成的毛刺。

然后混音器输出(413)通过ipsi(415-I)和contra(415-C)滤波器，然后与中置声道(420)混音，从而创造虚拟化双耳信号输出(425)。

对总混响量的控制允许对虚拟化的控制，从而允许耳机制造商使虚拟化适应耳机的特定硬件和/或用户以调整虚拟化体验。在一些实施例中，仅中置混响量可以由API(application programming interface，应用程序编程接口)控制，例如由与耳机配对的设备上的应用控制。这种控制可以由移动设备的软件实现自动化(例如，在检测到音频中应该减少混响的声音时)，或者可以由用户通过用户界面设置和/或调整以提供定制的虚拟化体验。在一些实施例中，仅中置混响量由耳机本身(例如，软件/固件中的预设值或偏移值)设置或调整，以基于硬件如何处理混响提供最佳平衡。

在一些实施例中，仅中置混响量独立于总混响量被控制(给定具有彼此不同值的选项)。这有助于控制中置对比(左+右)混响量(center-vs-(left+right)reverb amount)，例如，以避免中置声道上的语音音频混响过多，同时音乐上仍有足够的混响以提供虚拟化3D体验。

在中置声道上生成混响的简易方法如图5A所示。混响模块(505)被馈送来自上混器(510)的与左右声道一起的中置声道。如本例所示，可以使用限制器(515)来避免削波超出数字范围。

在中置声道上生成混响的更有效的方法如图5B所示。混响模块(555)替代地被馈送来自输入声道(565)和上混器(560)的上混后的左右声道(570)的混合输入。混音由仅中置混响值(center_reverb_amount)控制，类似于图4中所示的混音。L和R输入信号具有应用于其的center_reverb_amount(δ)(参见增益模块575)，而上混后的L和R声道具有应用于其的center_reverb_amount相对于1的加性逆(1-δ)(参见增益模块576)。其效果是，当仅中置混响值为最大值(例如，1)时，那么中置声道将具有完全混响(混响模块(555)将仅接收预上混的左右输入信号，其固有地包括中置声道)。当仅中置混响值为无混响(例如，0)时，那么中置声道将没有混响(混响模块(555)将仅接收后上混的左右声道，其中中置声道已被移除)。中间的值将按比例调整仅中置混响(例如，0.5会将半混响的中置作为左右声道)。左右混响量根据仅中置混响值保持不变-它们仅由总混响设置控制。

仅中置混响值和总混响值都可以由API单独控制。

高效的混响生成方法(例如，图5B)比简单的系统(例如，图5A)节省了内存使用和复杂度，这是使系统更加轻量级的重要一步，因为混响发生器通常贡献了系统中内存使用和复杂度的很大一部分。

在一些实施例中，混音比例被控制为分段非线性函数，例如：

其中r是仅中置混响值(例如，API设置)，A是用于标准化结果的常数(提供一致的音量)，w是来自上混器的值，该值给出中置声道中的左声道或右声道(例如左声道)的比例，thr是阈值，是应用的仅中置混响量。这有助于避免在左右声道中不对称的音频内容。

在一些实施例中，混响生成可以在两种复杂度模式之间切换。

图6A和6B示出了为混响生成提供可变复杂度的示例。

图6A示出了正常(全复杂度)操作模式。在这里，混响发生器与低通(例如巴特沃斯)滤波器(605)一起工作，馈入梳状滤波器(610)，然后馈入全通滤波器(615)以改变相位。梳状滤波器(610)由多个具有不同延迟值的无限脉冲响应(infinite impulse response，IIR)滤波器组成。这是内存和复杂度密集型的，可能会产生比预期更强的混响。

梳状滤波器和全通滤波器的Z域表达式为

其中g₁和g₂是反射增益，并且d是样本中的延迟。

图6B示出了简化模式，低通滤波器(655)直接馈入具有更长相位延迟(以模拟大房间)和更强反射因子的全通滤波器(660)。音频的音量也会提高以补偿，使混响较弱的音频具有通常更清晰的声音。与普通模式相比，简化模式降低了内存使用和复杂度，因此在需要时切换模式的能力(例如，在内存和复杂度危急的情况下)有助于轻量级虚拟器在各种情况下运行。

下面对进一步的实施例的描述将侧重于它与前面描述的实施例之间的差异。因此，两个实施例共有的特征将从以下描述中省略，因此除非其以下描述另有要求，应假定先前描述的实施例的特征是或至少可以在进一步的实施例中实施。在一些实施例中，轻量级虚拟器可以检测是否不需要虚拟化并绕过虚拟化。这可以通过API指令、机器学习衍生出的双耳检测(参见，例如，张春茂等的“Blind Detection Of Binauralized Stereo Content[双耳化立体声内容的盲检测]”,WO2019/209930A1，全文通过引用并入本文)，或通过接收已知具有虚拟化的移动设备或移动设备应用的标识(identification)。

图7示出了上混器的示例(2声道至3声道上混)。它从左右声道导出一个虚拟中置声道，从而实现左右声道的去相关，增强双耳信号的可分离性。上混过程是一种无反馈的有源矩阵解码形式(参见，例如，C.Phillip Brown,“Method and System for FrequencyDomain Active Matrix Decoding without Feedback[无反馈的频域有源矩阵译码方法与系统]”WO 2010/083137Al，全文通过引用并入本文)。上混器将左右声道的和视为中置声道(C)，并且将它们之间的差视为侧声道(S)。四个声道的功率(P)可以被计算和平滑。左(L)、右(R)、前(F)和后(B)的功率比可以根据功率推导出来。左、右、前和后的上混系数是基于非线性功率比计算的。推导出的虚拟中置声道是加权的左右声道的线性组合。在此示例中，对声道求和及差分(705)以提供左、右、中置和侧声道。功率和和功率差(710)给出了接着被平滑的功率水平(715)。导出左、右、前、后功率比(720)，计算上混系数(725)并导出中置声道(730)。

图8示出了基本的轻量级虚拟器方法的流程图示例。系统在输入级(805)接收来自音频源的左右输入信号。然后，将这些信号上混(810)到左、右和中置声道的上混版本。然后，该上混的左右声道和输入信号基于比例标度(仅中置混响量，由系统或API设置(830))进行混音(815)。然后，基于总混响量(820)为混音声道提供混响(820)，该总混响量也由系统或API设置(840)。然后，作为左右混响声道输出(835)以进行进一步处理(例如，使用输入或后处理输入的虚拟化)。

已经描述了本公开的数个实施例。然而，可以理解的是，可以在不脱离本公开的本质和范围的情况下进行各种修改。因此，其它实施例均在以下权利要求的范围之内。

以上所述的示例是作为如何制作和使用公开实施例的完整公开和描述提供给本领域普通技术人员的，并不旨在限制发明人/发明人们认为其公开的范围。

对上述用于执行本文所公开的方法和系统的模式所做出的对于本领域技术人员来说显而易见的修改，旨在落入以下权利要求的范围之内。说明书中提到的所有专利和出版物都表明了与本公开相关的本领域技术人员的技术水平。

应当理解的是，本公开不限于特定的方法或系统，它们当然可以有所不同。还应理解的是，本文中使用的术语仅出于描述特定实施例的目的，而不是旨在限制。如本说明书和所附权利要求书中使用的，除非内容另有明确规定，单数形式“一”、“一种”(“a”、“an”)和“所述”(“the”)包括复数指代。除非内容另有明确规定，术语“多个”包括两个或多个指代物。除非另有定义，否则本文中使用的所有技术和科学术语具有与本公开所涉及的领域的普通技术人员通常理解的含义相同的含义。

Claims

1.一种提供双耳虚拟化的设备，所述设备包括：

输入级，所述输入级被配置为接收左输入信号和右输入信号；

虚拟器，所述虚拟器被配置为执行虚拟化以对所述左输入信号和所述右输入信号的音频产生双耳效果；

上混器，所述上混器被配置为将所述左输入信号和所述右输入信号转换为右声道、左声道和中置声道；

混音器，所述混音器被配置为基于仅中置混响量值将所述左输入信号与所述左声道组合，并基于所述仅中置混响量值将所述右输入信号与所述右声道组合，从而产生混音器输出；以及

混响模块，所述混响模块被配置为将混响应用于输入至所述虚拟器的所述混音器输出，所述虚拟器输出虚拟化双耳信号输出。

2.如权利要求1所述的设备，其中，所述混响模块被配置为通过总混响量值来调整所述混响。

3.如权利要求2所述的设备，其中，所述仅中置混响量值和所述总混响量值是独立设置的。

4.如权利要求1至3中任一项所述的设备，还包括在所述上混器和所述虚拟器之间的谐波发生器和均衡器中的至少一个。

5.如权利要求1至4中任一项所述的设备，其中，所述设备被配置为检测所述左输入信号和所述右输入信号是否已经是双耳的。

6.如权利要求5所述的设备，其中，所述设备通过接收来自所述左输入信号和所述右输入信号的源的标识来检测所述左输入信号和所述右输入信号是否已经是双耳的。

7.如权利要求5所述的设备，其中，所述设备通过机器学习双耳检测来检测所述左输入信号和所述右输入信号是否已经是双耳的。

8.如权利要求5所述的设备，其中，所述设备通过API指令检测所述左输入信号和所述右输入信号是否已经是双耳的。

9.如权利要求1至8中任一项所述的设备，其中，所述虚拟器是音频解码器的一部分。

10.一种提供双耳虚拟化的方法，所述方法包括：

接收左输入信号和右输入信号的输入；

将所述左输入信号和所述右输入信号上混为右声道、左声道和中置声道；

基于仅中置混响量值将所述左输入信号与所述左声道混音，并基于仅中置混响量值将所述右输入信号与所述右声道混音，从而产生混音器输出；

将混响应用于输入至虚拟器的所述混音器输出；以及

从所述虚拟器输出虚拟化双耳信号输出。

11.如权利要求10所述的方法，还包括通过总混响量值来调整所述混响。

12.如权利要求11所述的方法，其中，所述仅中置混响量值和所述总混响量值由API设置。

13.如权利要求10至12中任一项所述的方法，还包括所述上混后的谐波发生和均衡中的至少一种。

14.如权利要求10至13中任一项所述的方法，还包括检测所述左输入信号和所述右输入信号是否已经是双耳的。

15.如权利要求14所述的方法，其中，所述检测是通过从所述左输入信号和所述右输入信号的源接收标识来完成的。

16.如权利要求14所述的方法，其中，所述检测是通过机器学习双耳化检测完成的。

17.如权利要求14所述的方法，其中，所述检测是通过API指令完成的。

18.如权利要求10至17中任一项所述的方法，还包括在标准滤波模式和简化滤波模式之间切换，其中，所述标准滤波模式包括使用梳状滤波器而所述简化滤波模式则不包括。

19.一种非暂态计算机可读介质，所述非暂态计算机可读介质包括被配置为执行如权利要求10至18中任一项所述的方法的步骤的数据。