CN108701461A

CN108701461A - 用于具有多个反射的声源的改进的立体混响编码器

Info

Publication number: CN108701461A
Application number: CN201680077847.7A
Authority: CN
Inventors: P·贝尔泰
Original assignee: 3d Sound Lab
Current assignee: Mimi Hearing Technologies GmbH
Priority date: 2016-01-05
Filing date: 2016-12-08
Publication date: 2018-10-23
Anticipated expiration: 2036-12-08
Also published as: WO2017118519A1; US20190019520A1; US10475458B2; US11062714B2; EP3400599B1; EP3400599A1; CN108701461B; US20200058312A1; FR3046489B1; FR3046489A1

Abstract

本发明涉及用于具有多个反射的声波的立体混响编码器。要求保护的立体混响编码器改善了3D音频场景中的沉浸感。用于根据本发明的立体混响编码器的声源的反射的编码的复杂度小于根据现有技术的立体混响编码器的声源的反射的编码的复杂度。要求保护的立体混响编码器能够实时编码更多数量的声源反射。要求保护的立体混响编码器能够减少与立体混响编码有关的功耗，并且能够增加用于所述应用的移动设备的电池的寿命。

Description

用于具有多个反射的声源的改进的立体混响编码器

技术领域

本发明涉及声源的立体混响编码。更具体地说，它涉及在声源在声场景中经过反射的情况下提高这种编码的效率。

背景技术

声音的空间表示结合用于捕捉、合成和再现声音环境的技术，允许听众能够更好地沉浸在声音环境中。它们特别允许用户识别大于他或她可用的扬声器数量的声源数量，并且以3D方式精确定位这些声源，甚至在其方向与扬声器的方向不一致的情况下。有许多用于声音空间表示的应用，包括允许用户基于一套立体声耳机所产生的声音在三维中精确定位声源，或允许用户在房间中在三维中精确定位声源，声音由扬声器(例如，5.1扬声器)发出。另外，声音的空间表示允许产生新的声音效果。例如，它们允许旋转声场景或者应用声源的反射来模拟给定声音环境(例如电影院厅或音乐厅)的再现。

空间表示以两个主要步骤产生：立体混响编码和立体混响解码。为了从声音的空间表示中受益，实时立体混响解码始终是必需的。实时产生或处理声音可能还涉及对其实时立体混响编码。由于立体混响编码是一项复杂的任务，因此实时立体混响编码能力可能受到限制。例如，给定量的计算能力只能够实时编码有限数量的声源。

用于空间表示声音的技术特别在以下文献中进行了描述：J.Daniel、Représentations de champs acoustiques、application à la transmission et à lareproduction de scènes sonores dans un contexte multimédia(“Representationsof acoustic fields、application to the transmission and to the reproduction ofsound scenes in a multimedia context”)，INIST-CNRS，Cote INIST：T 139957。对声场进行立体混响编码包括将声压场分解成一个点，例如对应于用户的位置，以球形坐标的形式，用以下形式表示：

其中，表示相对于计算声场的点在方向的时间t处的声压。j^m表示阶m的球形贝塞尔函数。

表示在由方向定义的方向上的阶mn的球面谐波。符号B_mn(t)定义在时间t时对应于各种球面谐波的立体混响系数。

因此，立体混响系数在每个时间都定义了一个点周围的整个声场。立体混响域中的声场的处理表现出特别有趣的特性。特别是旋转整个声场非常简单。也可以通过扬声器广播包括基于一组立体混响系数的方向信息的声音。例如，可以通过5.1扬声器广播声音。通过使用称为HRTF(头部相关传递函数)的传递函数，也可以在仅具有左扬声器和右扬声器的一组耳机中呈现包括方向信息的声音。这些功能使得可以通过对立体声信号的至少一个声道添加延迟和/或衰减来在两个扬声器上呈现定向信号，这被大脑解释为限定声源的方向。

被称为HOA(高阶立体混响法)的分解包括将该无限和截断成大于或等于1的阶M：

一般而言，足够远的声源被认为是球形地来传播声波。然后，可以认为与源链接的立体混响系数B_mn(t)在时间t处的值取决于在这个时间t处的源的声压s(t)以及与该声源的方位链接的球面谐波。因此可以说明，对于单个声源来说：

在一组N_s远距离声源的情况下，描述声场景的立体混响系数被计算为每个源的立体混响系数之和，每个源i具有方位

这个计算也可以用矢量形式表示：

立体混响系数保持B_mn的形式，其中对于阶M，m的范围从0到M，并且n的范围从-m到m。

包括至少一个源的立体混响编码的设备因此可以通过计算对于阶M的立体混响系数来定义完整的声场。取决于阶M和源的数量，该计算可能是长且资源密集的。具体而言，对于阶M，在每个时间t计算(M+1)²个立体混响系数。对于每个系数，必须计算N_s个源中的每个的贡献如果源S是固定的，则可以预先计算球面谐波否则，每次都必须重新计算。

增加立体混响系数的阶数允许更好的质量听觉再现。因此，在保持计算时间和负载、电力消耗和电池使用在合理的水平的同时，可能难以获得良好的音质。现在更多的情况是，立体混响系数通常是在移动设备上实时计算的。例如，考虑智能手机实时收听音乐的情况，使用立体混响系数计算方向信息。

当在声场中计算反射时，此问题变得更加成问题。

计算反射可以模拟房间中的声场景，例如电影院或音乐厅。在这些条件下，声音从大厅的墙壁反射出来，形成一种特有的“氛围”，反射由声源和听众的各自位置以及声波扩散的材料(例如墙壁的材料)来限定。使用立体混响音频编码创建大厅般的音效特别在以下文献进行了描述：J.Daniel、Représentations de champs acoustiques、application àla transmission et à la reproduction de scènes sonores dans un contextemultimédia(“Representation of acoustic fields、application to the transmissionand to the reproduction of sound scenes in a multimedia context”)，INIST-CNRS，Cote INIST：T 139957，第283-287页。

可以通过针对每个声源添加一组辅助声源来模拟反射的效果，并给出立体混响中的“氛围”，其中强度和方向基于声源从声场景的墙壁和障碍物的反射来计算。每个初始声源都需要几个声源才能以令人满意的方式来模拟声场景。然而，这使得上述计算能力和电池容量问题更加严重，因为计算立体混响系数的复杂度进一步乘以辅助声源的数量。计算立体混响系数以用于令人满意的声音再现的复杂性可能使得该解决方案不可行，例如因为不可能实时计算立体混响系数，这是因为用于计算立体混响系数的计算负载变得太大，或者因为移动设备上的电和/或电池消耗变得过高。

N.Tsingos等人，Perceptual Audio Rendering of Complex VirtualEnvironment，ACM Transactions on Graphics(TOG)-Proceedings of ACM SIGGRAPH2004，第23卷第3期，8月200，第249-258页公开了一种用于克服该问题的双耳处理方法。Tsingos提出的解决方案是通过以下措施减少声源的数量：

-评估每个声源的功率；

-将声源从最强到最不强进行分类；

-去除最不强的声源；

-将剩余声源一起分组为彼此靠近的声源集群，并将它们合并以针对每个集群获得单个虚拟声源。

由Tsingos公开的方法使得减少声源的数量成为可能，并且因此当使用混响时降低总体处理的复杂度。但是，这种技术有几个缺点。它不能改进处理混响本身的复杂性。如果源数量较少，希望增加混响次数，则会再次遇到同样的问题。另外，用于确定每个源的声功率并将这些声源合并为集群的处理操作本身具有相当大的计算负载。所描述的实验仅限于预先知道声源并且它们各自的功率已经被预先计算的情况。在存在各种强度的多个源并且其功率必须重新计算的声场中，相关联的计算负载将至少部分地抵消通过限制源的数量而获得的计算增益。

最后，当声源类似于噪声时，例如在地铁中的人群情况下，由Tsingos进行的测试提供令人满意的结果。对于其他类型的声源，这种方法可能被证明是有害的。例如，当记录由交响乐团演奏的音乐会时，通常情况下，几种乐器虽然表现出低水平的声音功率，但对整体和声做出重要贡献。简单地删除相关联的声源，仅仅因为它们相对较弱，就会对记录质量产生严重的负面影响。

因此，需要一种用于计算立体混响系数的设备和方法，这使得可以实时计算表示至少一个声源及其在声场景中的一个或多个反射的一组立体混响系数，同时限制与声源的一个或多个反射相链接的额外计算复杂性，而不先验减少声源的数量。

发明内容

为此，本发明涉及一种用于具有多个反射的声波的立体混响编码器，包括：用于变换声波频率的逻辑；用于基于声波的源的位置和声波传播障碍物的位置来计算声波的球面谐波和多个反射的球面谐波的逻辑；频域中的多个滤波逻辑，接收多个反射的球面谐波作为输入，每个滤波逻辑由反射的声学系数和延迟来进行参数化；用于将声波的球面谐波和来自滤波逻辑的输出相加的逻辑。

有利地，用于计算声波的球面谐波的逻辑被配置为基于声波的源的固定位置来计算声波的球面谐波和多个反射的球面谐波。

有利地，用于计算声波的球面谐波的逻辑被配置为基于声波的源的连续位置迭代地计算声波的球面谐波和多个反射的球面谐波。

有利地，每个反射由独特的声学系数来表征。

有利地，每个反射由针对所述频率采样的每个频率的声学系数来表征。

有利地，反射由虚拟声源表示。

有利的是，该立体混响编码器还包括用于计算反射的虚拟声源的声学系数、延迟和位置的逻辑，所述计算逻辑被配置为根据声音在声波的源的位置与用户的估计位置之间所行进的距离的差的估计及声音在反射的虚拟声源的位置与用户的估计位置之间所行进的距离的估计来计算反射的声学系数和延迟。

有利地，用于计算反射的虚拟声源的声学系数、延迟和位置的逻辑还被配置为根据声音从其反射的声波传播的至少一个障碍物的至少一个声学系数来计算反射的声学系数。

有利地，用于计算反射的虚拟声源的声学系数、延迟和位置的逻辑还被配置为根据声音从其反射的声波传播的至少一个障碍物的声学系数来计算反射的声学系数。

有利地，用于计算声波的球面谐波和多个反射的球面谐波的逻辑还被配置为计算在频率变换电路的每个输出频率处声波的球面谐波和多个反射的球面谐波，所述立体混响编码器还包括用于计算声波的双耳系数的逻辑，所述逻辑被配置为通过在用于变换声波的频率的电路的每个输出频率处将声波的信号乘以在该频率下的声波的球面谐波和多个反射的球面谐波来计算声波的双耳系数。

有利的是，用于计算反射的虚拟声源的声学系数、延迟和位置的逻辑被配置为计算多个迟反射的声学系数和延迟。

本发明还涉及一种用于对具有多个反射的声波进行立体混响编码的方法，包括：变换声波的频率；基于声波的源的位置和声波传播的障碍物的位置来计算声波的球面谐波和多个反射的球面谐波；通过用于在频域中滤波的多个逻辑对所述多个反射的球面谐波进行滤波，每个滤波逻辑由反射的声学系数和延迟来进行参数化；将声波的球面谐波和来自滤波逻辑的输出相加。

本发明还涉及一种用于对具有多个反射的声波进行立体混响编码的计算机程序，包括：被配置为变换声波的频率的计算机代码指令；被配置为基于所述声波的源的位置和对所述声波的传播的障碍物的位置来计算所述声波的球面谐波和所述多个反射的球面谐波的计算机代码指令；被配置为将用于在频域中进行滤波的多个逻辑参数化的计算机代码指令，多个逻辑接收所述多个反射的球面谐波作为输入，每个滤波逻辑由反射的声学系数和延迟来进行参数化；被配置为将声波的球面谐波和来自滤波逻辑的输出相加的计算机代码指令。

根据本发明的立体混响编码器可以改善3D音频场景中的沉浸感。

根据本发明的用于立体混响编码器的声源的反射的编码的复杂度小于根据现有技术的立体混响编码器的声源的反射的编码的复杂度。

根据本发明的立体混响编码器能够实时地编码更多数量的声源反射。

根据本发明的立体混响编码器可以减少与立体混响编码相关的功耗，并且增加用于所述应用的移动设备的电池的寿命。

附图说明

在阅读以举例方式结合附图给出的以下非限制性详细描述时，其他特征将变得显而易见，其中示出：

-图1a和图1b，根据本发明的两个实施例的用于收听声波的系统的两个示例；

-图2，根据现有技术的双耳化系统的一个示例，其包括用于对每个声源的音频场景进行双耳化的引擎；

-图3a和图3b，根据现有技术，分别用于在时间域和频域中对3D场景进行双耳化的引擎的两个示例；

-图4，用于在本发明的一组实施模式中对具有多个反射的声波进行立体混响编码的立体混响编码器的一个示例；

-图5，在本发明的一种实施方式中计算辅助声源的一个示例；

-图6，在本发明的一个实施例中计算早反射和迟反射的一个示例；

-图7，用于在本发明的一组实施模式中，对具有多个反射的声波编码的方法。

具体实施方式

图1a和图1b示出了根据本发明的两个实施例的用于收听声波的系统的两个示例。

图1a示出了根据本发明的一个实施例的用于收听声波的系统的一个示例。

系统100a包括触摸屏平板计算机110a和一组耳机120a以允许用户130a收听声波。仅仅作为示例，系统100a包括触摸屏平板计算机。但是，该示例也适用于智能电话或具有显示和声音广播能力的任何其他移动设备。声波例如可以来自电影或游戏的回放。根据本发明的若干实施例，系统100a可以被配置为收听多个声波。例如，当系统100a被配置用于回放包括5.1多声道音带的电影时，同时听到六个声波。类似地，当系统100a被配置为玩游戏时，可以同时听到许多声波。例如，在涉及多个字符的游戏的情况下，可以针对每个字符创建声波。

每个声波都与声源相关联，声源的位置是已知的。

触摸屏平板计算机110a包括根据本发明的立体混响编码器111a、变换电路112a和立体混响解码器113a。

根据本发明的一组实施例，立体混响编码器111a、变换电路112a和立体混响解码器113a由运行在触摸屏平板计算机的处理器上的计算机代码指令组成。例如，它们可能是通过在平板计算机上安装应用或特定软件而获得的。在本发明的其他实施例中，立体混响编码器111a、变换电路112a和立体混响解码器113a中的至少一个是专用集成电路，例如ASIC(专用集成电路)或FPGA(现场可编程门阵列)。

立体混响编码器111a被配置为在频域中基于至少一个声波来计算表示声场景的整体的一组立体混响系数。它还被配置为将反射应用于至少一个声波以模拟收听环境，例如特定大小的电影厅或音乐厅。

变换电路112a被配置为通过修改立体混响系数来旋转声场景，以模拟用户头部的旋转，从而不管他或她的脸部的方向如何，各种声波看起来像从同一个位置到达他或她。例如，如果用户将他或她的头部向左转动一个角度α，则将声场景向右旋转一个相同的角度α允许声音从同一方向继续到达他或她。根据本发明的一组实施例，该组耳机120a被提供有至少一个运动传感器121a，例如陀螺仪，从而可以获得用户130a的头部旋转的角度或角度的导数。表示旋转角度的信号或者旋转角度的导数的信号然后被该组耳机121a发送到平板计算机120a，使得变换电路112a旋转相对应的声场景。

立体混响解码器113a被配置为通过将变换后的立体混响系数转换成两个立体声信号来在该组耳机120a的两个立体声声道上呈现声场景，一个用于左声道而另一个用于右声道。在本发明的一组实施例中，使用被称为HRTF(头部相关传递函数)的函数来执行立体混响解码，使得有可能在两个立体声声道上呈现各种声源的方向。由申请人提交的法国专利申请n°1558279描述了一种用于创建根据HRTF池和用户的脸的特征来针对所述用户进行优化的HRTF的方法。

系统100a因此允许其用户受益于特别有沉浸感的体验：在游戏期间或除图像之外的多媒体内容项目的回放期间，该系统允许他或她受益于沉浸在一个声场景中的印象。通过在用户转动他或她的头部时跟踪各种声源的方位以及通过应用反射给人一种沉浸在特定声音环境中的印象，放大了这种印象。例如，这个系统可以用一组音频耳机观看电影或音乐会，同时有沉浸在电影院或音乐厅的印象。所有这些操作都是实时执行的，从而可以使用户感知的声音不断适应他或她头部的方位。

根据本发明的立体混响编码器111a使得能够以相对于现有技术的立体混响编码器的复杂程度较低的方式来对更多数量的声源的反射编码。因此，它可以在增加声源反射次数的同时，实时执行所有的立体混响计算。反射次数的这种增加允许模拟的收听环境(音乐厅、电影院等)被更精细地建模，并且因此沉浸在声场景中的感觉被增强。假设相同数量的声源，降低立体混响编码的复杂度还允许相对于现有技术的编码器来降低编码器的电力消耗，并且因此允许触摸屏平板计算机110a的电池的放电持续时间得以改进。因此这使得用户可以更长时间地欣赏多媒体内容项目。

图1b示出了根据本发明的一个实施例的用于收听声波的系统的第二示例。

系统100b包括连接到监视器114b、鼠标115b和键盘116b的中央单元110b以及一组耳机120b，并且由用户130b使用。中央单元包括根据本发明的立体混响编码器111b、变换电路112b和立体混响解码器113b，它们分别类似于系统100a的立体混响编码器111a、变换电路112a和立体混响解码器113a。类似于系统100a，立体混响编码器111a被配置为通过向代表声场景的至少一个波添加反射来对其进行编码，该组耳机120a包括至少一个运动传感器120b，传送电路120b被配置为旋转声场景以便跟踪用户头部的方位，并且立体混响解码器113b被配置为在该组耳机120b的两个立体声声道上呈现声音，使得用户130b具有沉浸在声场景中的印象。

系统100b适用于查看多媒体内容和视频游戏。具体而言，在视频游戏中，可能会有来自各种来源的非常大量的声波。例如，在战略或战斗游戏中就是这种情况，其中许多角色可以针对各种声音源发出不同的声音(用于走步、跑步、拍摄等的声音)。立体混响编码器111b使得可以对所有这些源进行编码，同时向其实时添加许多反射，使得场景更逼真和有沉浸感。因此，包括根据本发明的立体混响编码器111b的系统100b在具有大量声源和反射的情况下，允许视频游戏中的沉浸式体验。

图2示出了根据现有技术的双耳化系统的一个示例，该双耳化系统包括用于对每个声源的音频场景进行双耳化的引擎。

双耳化系统200被配置为将声场景的声源组210变换为立体声监听系统的左声道240和右声道241，并且包括一组双耳引擎220，该组双耳引擎包括每个声源的一个双耳引擎。

声源可以是任何类型的声源(例如，在视频游戏的情况下，单声道、立体声、5.1、多声源)。每个声源都与空间中的方位相关联，例如由参考系中的角度以及由其本身由一组时间样本表示的声波来定义。

组220的每个双耳化引擎被配置为用于声源并且在对应于声源的样本的每个时间t：

-执行到阶M的对声源的HOA编码；

-对双耳系数执行变换，例如旋转；

-计算一组输出声道在时间t的声强其中代表输出声道的方位。

可能的输出声道对应于各种收听声道。例如，可能在立体声收听系统中有两个输出声道，在5.1收听系统中有六个输出声道，等等。

每个双耳化引擎产生两个输出(左输出和右输出)，并且系统200包括用于添加所有左输出的加法器电路230和用于添加该组双耳化引擎220的所有右输出的加法器电路231。加法器逻辑230和231的输出分别是立体声收听系统的左声道240的声波和右声道241的声波。

系统200使得可以将所有声源210变换成两个立体声声道，同时能够应用通过立体混响所允许的所有变换，例如旋转。

然而，系统200在计算时间方面具有一个主要缺点：它需要用于计算每个声源的立体混响系数的计算，针对每个声源的变换的计算以及针对与每个声源相关联的输出的计算。因此，由系统200处理的针对声源的计算负载与声源的数量成比例，并且对于大量声源可能变得过高。

图3a和图3b示出了根据现有技术的用于分别在时域和频域中对3D场景进行双耳化的引擎的两个示例。

图3a示出了根据现有技术的用于在时域中对3D场景进行双耳化的引擎的一个示例。

为了在大量源的情况下限制双耳处理的复杂度，双耳化引擎300a包括用于声场景的所有源310的单个HOA编码引擎320a。该编码引擎320a被配置为在每个时间间隔处根据在所述时间间隔处的声源的强度和位置来计算每个声源的双耳系数，然后对各个声源的双耳系数进行求和。这使得有可能获得代表整个声场景的单个组的双耳系数321a。

接着，所述双耳化引擎320A包括用于变换系数的电路330A，，该电路被配置为将代表声场景的一组系数321a变换成代表声场景的整体的一组变换后系数331a。这使得例如可以旋转整个声场景。

双耳化引擎300a接下来包括双耳解码器340a，双耳解码器340a被配置为将变换后系数331a呈现为一组输出声道，例如立体声系统的左声道341a和右声道342a。

因此双耳化引擎300a使得可以通过将变换和解码步骤应用于整个声场景而不是单独地应用于每个声源来降低相对于系统200的针对声场景的双耳处理所需的计算复杂度。

图3b示出了根据现有技术的用于在频域中对3D场景进行双耳化的引擎的一个示例。

双耳化引擎300b非常类似于双耳化引擎300a。它包括一组频率变换逻辑311b，组311b包括用于每个声源的一个频率变换逻辑。频率变换逻辑例如可以被配置为应用快速傅立叶变换(FFT)以获得频域中的一组源312b。对频率变换的应用为本领域技术人员所熟知，并且例如由A.Mertins、Signal Analysis:Wavelets、Filter banks、Time-FrequencyTransforms and Applications，英文(修订版)，ISBN：9780470841839中所描述的。其包括例如，根据频率采样，它经由时间窗将声音样本变换成频率强度。逆运算或逆频率变换(在快速傅立叶变换的情况下称为FFT^-1或快速傅立叶逆变换)使得可以基于频率采样来检索声音样本的强度。

双耳化引擎300b接下来包括频域中的HOA编码器320b。编码器320b被配置为针对每个源以及在频率采样的每个频率处计算相对应的立体混响系数，然后使各个源的立体混响系数相加以获得在各种频率下表示整个声场景的一组立体混响样本321b。通过以下公式以与在时间t的立体混响系数类似的方式获得采样频率f下的立体混响系数：

接下来，双耳化引擎300b包括类似于变换电路330a的变换电路330b，使得能够获得代表整个声场景的一组经变换的立体混响系数331b，以及双耳解码器340b，其被配置为呈现两个立体声声道341b和342b。双耳解码器340b包括逆频率变换电路，以便在时域中呈现立体声声道。

双耳化引擎300b的特性与双耳化引擎300a的特性非常相似。它还使得可以相对于系统200利用较低复杂度来双耳化处理声场景。

在源数量大量增加的情况下，双耳引擎300a和300b的双耳处理的复杂性主要是由于由编码器320a和320b计算的HOA系数引起的。具体而言，要计算的系数的数量与源的数量成比例。相反，变换电路330a和330b连同双耳解码器340a和340b一起处理表示整个声场景的一组双耳系数，其数目不随源的数量而变化。

为了处理这些反射，双耳编码器320a和320b的复杂度可能显著增加。具体而言，用于处理反射的现有技术的解决方案在于针对每个反射添加虚拟声源。因此，根据现有技术的这些编码器的HOA编码的复杂度与每个源的反射次数成比例地增加，并且当反射次数变得太重要时可能成问题。

图4示出了在本发明的一组实施模式中用于对具有多个反射的声波进行立体混响编码的立体混响编码器的一个示例。

立体混响编码器400被配置为将具有多个反射的声波410编码为一组阶为M的立体混响系数。为此，立体混响编码器被配置为计算表示声波的球面谐波和多个反射的球面谐波的组460。举例来说，将对立体混响编码器400进行描述以用于单个声波的编码。然而，根据本发明的立体混响编码器400也可以对多个声波进行编码，对于每个附加声波，立体混响编码器的元件以相同的方式使用。声波410可以对应于例如音轨的声道或动态创建的声波，例如对应于视频游戏的对象的声波。在本发明的一组实施例中，声波由连续的声音强度样本限定。根据本发明的各种实施例，例如可以以22500Hz、12000Hz、44100Hz、48000Hz、88200Hz或96000Hz的频率对声波进行采样，并且每个强度样本在8位、12位、16位，24位或32位上进行编码。在多个声波的情况下，这些可以以不同频率被采样，并且采样可以在不同数量的比特上进行编码。

立体混响编码器400包括用于变换声波的频率的逻辑420。这与根据现有技术的用于变换双耳化系统300b的声波的频率的逻辑311b类似。在具有多个声波的实施例中，编码器400包括用于每个声波的频率变换逻辑。在频率变换逻辑的输出处，对于时间窗，通过在频率采样的各种频率处的一组强度来定义421声波。在本发明的一组实施例中，频率变换逻辑420是应用FFT的逻辑。

编码器400a还包括逻辑430，用于基于声波的源的位置和声波传播的障碍物的位置来计算声波的球面谐波和多个反射的球面谐波。在本发明的一组实施例中，声波的源的位置由角度和相对于用户的收听位置的距离限定。声波至阶M的球面谐波可以根据现有技术中已知的方法基于角度该角度定义了声波的源的方位。

逻辑430还被配置为基于声波的源的位置来计算多个反射的一组球面谐波。在本发明的一组实施例中，逻辑430被配置为基于声波的源的位置和声波传播的障碍物的位置来计算反射的虚拟源的方位，由角度定义，然后基于这些角度，计算声波的反射的球面谐波这使得可以针对每个反射获得与从声波传播的障碍物反射的波的方向对应的球面谐波。

该立体混响编码器400还包括多个逻辑440，用于在频域中进行滤波，接收多个反射的球面谐波作为输入，每个滤波逻辑由反射的声学系数和延迟来进行参数化。在整个描述中，α_r将表示反射的声学系数，并且δ_r将表示反射的延迟。根据本发明的各种实施例，声学系数可以是混响系数α_r，其表示反射强度与声源强度之间的比值，并被限定在0与1之间。根据本发明的其他实施例，声学系数是被称为衰减或吸收系数的系数α_a，该系数被定义在0和1之间，使得α_a＝α_r-1。这些滤波逻辑使得可以将延迟和衰减应用于反射的立体混响系数。因此，反射的虚拟源的方位、反射的延迟和反射的衰减的组合使得可以将每个反射建模为来自不同方向的声源的复制品，被分配延迟并且在行进之后和声源的反射之后被衰减。该模型使得可以用多个反射来以直接和有效的方式模拟场景中声波的传播。

通常，反射的球面谐波的频率f处的滤波可以写为：在本发明的一个实施例中，滤波逻辑440被配置为通过应用：来对球面谐波进行滤波。在该实施例中，系数α_r被视为混响系数。在其他实施例中，可以将系数α_a视为衰减系数，并且球面谐波例如可以通过应用下式进行滤波：在整个描述的其余部分中，除非另有说明，系数α_r将被认为是混响系数。然而，本领域技术人员将能够容易地以衰减系数而不是混响系数来实现本发明的各种实施例。

立体混响编码器400还包括用于添加声波的球面谐波和来自滤波逻辑的输出的逻辑450。这个逻辑使得有可能获得阶数为M的球面谐波的集合Y′₀₀、Y′_1-1、Y′₁₀、Y′₁₁、...Y′_MM，它们代表声波和声波在频域中的反射。因此，表示声波和声波反射的球面谐波Y′_ij(其中0≤i≤M且-i≤j≤i)因此由加法器逻辑450输出为等于值其中是声波的源的球面谐波，N_r是声波的反射次数，是反射的虚拟声源的位置的球面谐波，并且项H_r(f)是用于在频率f处对反射r的球面谐波进行滤波的逻辑。在本发明的一组实施例中，滤波逻辑H_r(f)使得并且表示声波和声波的反射的球面谐波Y_ij到阶M，如由加法器逻辑电路450输出的，等于

根据本发明的各种实施例，可以预定义反射次数N_r。根据本发明的其他实施例，声波的反射根据它们的声学系数、反射次数N_r，然后取决于声波的位置、用户的位置和声音传播的障碍物来保持。在上述示例中，声学系数被定义为反射强度与声源强度的比率，即混响系数。在本发明的一个实施例中，保持具有大于或等于预定义阈值的声学系数的声波的反射。在其它实施例中，声学系数被定义为衰减系数，即由声波传播的障碍物以及通过空气的路径吸收的声音强度与声源强度的比率。在该实施例中，保持声学系数低于或等于预定义阈值的声波的反射。

因此，立体混响编码器400可以计算代表声波及其反射的一组球面谐波Y′_ij。一旦已经计算出这些球面谐波，编码器可以包括用于将球面谐波乘以在各种频率处的声源的声强值，以便获得代表声波的球面谐波和反射的立体混响系数的逻辑。在具有多个声源的实施例中，编码器400包括用于使各种声源的及其反射的立体混响系数相加的逻辑，使得有可能获得表示声场景整体的立体混响系数作为输出。

在本发明的一组实施例中，表示声场景的阶M的立体混响系数然后，如对于Ns个声源并且对于频率f，由用于使各种声源的球面谐波和它们的反射的立体混响系数相加的逻辑所输出的，等于：

表示声波及其反射的单个立体混响系数Y'_ij的使用使得有可能显著地减少计算操作，从而允许获得立体混响系数，特别是当反射次数很大时。具体地，这使得可以减少乘法的次数，因为对于i的每个值，使得0≤i≤M，对于j的每个值，使得-i≤j≤i，以及每个反射，不再需要将针对每个频率的源的强度S_i(f)中的每一个乘以球面谐波中的每一个。这种乘法次数的减少使计算复杂度大大降低，特别是在大量反射的情况下。

在本发明的一组实施例中，用于计算声波的球面谐波的逻辑430被配置为基于声波的源的固定位置来计算声波的球面谐波和多个反射的球面谐波。在这种情况下，声源的方位和每个谐波的方位是恒定的。声波的球面谐波和多个反射的球面谐波也具有恒定值，并且可以针对声波计算一次。

在本发明的其他实施例中，用于计算声波的球面谐波的逻辑430被配置为基于声波的源的连续位置迭代地计算声波的球面谐波和多个反射的球面谐波。根据本发明的各种实施例，存在用于定义计算迭代的各种可能性。在本发明的一个实施例中，逻辑430被配置为，每当声波的源的位置的变化或用户的位置的变化被检测到时，重新计算声波的球面谐波值和多次反射的球面谐波值。在本发明的另一个实施例中，逻辑430被配置为以规则的间隔(例如每10ms)重新计算声波的球面谐波和多个反射的球面谐波的值。在本发明的另一个实施例中，逻辑430被配置为在由逻辑420使用的时间窗中的每一个中重新计算声波的球面谐波和多个反射的球面谐波的值，以用于将声波的频率进行变换，以将声波的时间样本转换为频率样本。

在本发明的一组实施例中，每个反射由单个声学系数α_r表征。

在本发明的其他实施例中，每个反射由所述频率采样的每个频率的声学系数表征。这可能的是，针对各种频率获得不同的声学系数，并且提高了某些效果的再现。例如，已知厚材料更容易吸收低频。类似地，一些类型的材料不同地吸收和反射高频。因此，针对同一反射和不同频率定义不同的声音系数使得能够表征反射所遇到的材料，从而允许根据其墙壁的材料更好地再现各种类型的大厅。

在本发明的一组实施例中，根据该频率的声学系数α_r与预定义的阈值之间的比较，可以将频率处的反射视为零。例如，如果系数α_r表示混响系数，则如果频率低于预定义的阈值，则认为该频率为零。相反，如果它是衰减系数，则如果频率高于或等于预定义的阈值，则认为该频率为零。这可能的是，进一步限制乘法的次数，并且因此进一步限制立体混响编码的复杂度，同时对双耳再现具有最小的影响。

在本发明的一组实施例中，立体混响编码器400包括用于计算反射的虚拟声源的声学系数和延迟以及位置的逻辑。该计算逻辑例如可以被配置为根据声音在声波的源的位置与用户两者的估计位置之间所行进的距离与声音在反射的虚拟声源的位置与用户的估计位置之间所行进的距离的差的估计来计算反射的声学系数和延迟。事实上，直接了解从声源的一条直线声波到达用户所经过的距离与经过反射到达用户所经过的距离之间的差，并且知道声速，从而推导出在由声源以直线产生的声音与受到反射影响的声音之间用户经历的延迟。

类似地，已知当声波在空气中行进时声波的强度降低。用于计算声学系数和延迟以及反射的虚拟声源的位置的逻辑因此可以被配置为根据由声源以直线产生的声音与受到反射的影响的声音之间行进的距离的差来计算声波反射的声学系数。

在本发明的其他实施例中，用于计算反射的虚拟声源的声学系数和延迟以及位置的逻辑还被配置为根据声音被反射的声波传播的至少一个障碍物的声学系数来计算反射的声学系数。这使得可以更好地模拟大厅的材料的吸收，并且障碍物的声学系数可以随着各种频率而变化。障碍物的声学系数可以是混响系数或衰减系数。

图5示出了在本发明的实现的一个模式中计算辅助声源的一个示例。

在该示例中，声波的源在房间510中具有位置520，并且用户具有位置540。房间510由四个墙壁511、512、513和514组成。

在本发明的一组实施例中，用于计算反射的虚拟声源的声学系数和延迟以及位置的逻辑被配置为以下列方式计算反射的虚拟声源的位置、延迟和衰减：针对墙壁511、512、513和514中的每一个，逻辑被配置为计算反射的虚拟声源的位置作为声源相对于墙壁的位置的倒数。计算逻辑因此被配置为计算分别关于墙壁511、512、513和514的反射的四个虚拟声源的位置521、522、523和524。

对于这些虚拟声源中的每一个，计算逻辑被配置为计算声波的行进路径并从中推导出相对应的声学系数和延迟。例如，在虚拟声源511的情况下，声波沿着路径530直到墙壁512的点531，然后沿着路径532直到用户540的位置。声音沿着路径530、532行进的距离使得可以计算反射的声学系数和延迟。在本发明的一组实施例中，计算逻辑还被配置为在点531应用对应于墙壁512的吸收的声学系数。在本发明的一组实施例中，该系数取决于各种频率，并且可以例如根据墙壁512的材料和/或厚度针对每个频率确定。

在本发明的一组实施例中，虚拟声源521、522、523和524被用于计算与多次反射对应的辅助虚拟声源。例如，辅助虚拟源533可以被计算为关于墙壁514的虚拟源521的倒数。声波的对应路径然后包括直到点531的段530；点531和535之间的534；在点535和用户的位置540之间的536。然后可以基于声音在段531、535和536上所行进的距离以及点531和535处的墙壁的吸收来计算声学系数和延迟。

根据本发明的各种实施例，可以计算对应于反射的虚拟声源达到预定义的阶n。各种实施例可能用于确定要保留的反射。在本发明的一个实施例中，计算逻辑被配置为针对每个虚拟声源，计算针对每个墙壁的高阶虚拟声源，直到预定义的阶n为止。在一个实施例中，立体混响编码器被配置为处理每个声源的预定数量Nr的反射，并且保留具有最弱衰减的Nr个反射。在本发明的另一个实施例中，基于声学系数与预定阈值的比较来保留虚拟声源。

图6示出了在本发明的一个实施例中计算早反射和迟反射的一个示例。

图600示出了声源随着时间的多次反射的强度。轴线601表示反射的强度，并且轴线602表示由声波的源发出声波与用户对反射的感知之间的延迟。在该示例中，在预定延迟603之前发生的反射被认为是早反射610，并且延迟603之后发生的反射被认为是迟反射620。在本发明的一个实施例中，早反射是使用虚拟声源计算的，例如根据参照图5描述的原理。

根据本发明的各种实施例，以如下方式计算迟反射：例如根据图5中描述的原理计算一组Nt个辅助声源。用于计算反射的虚拟声源的声学系数和延迟以及位置的逻辑被配置为根据上述各种实施例，保留小于Nt的反射次数Nr。在本发明的一组实施例中，逻辑还被配置为编译包括未保留的所有反射的(Nt–Nr)个迟反射的列表。该列表对于每个迟反射仅包括迟反射的声学系数和延迟，并且没有虚拟源的位置。

根据本发明的一个实施例，该列表由立体混响编码器发送到立体混响解码器。然后，立体混响解码器被配置为利用迟反射的声学系数和延迟对其输出(例如其输出立体声声道)进行滤波，然后将这些滤波后的信号添加到输出信号。这使得可以改善大厅或听音环境中的沉浸感，同时进一步限制编码器的计算复杂度。

根据本发明的另一实施例，立体混响编码器被配置为利用迟反射的声学系数和延迟来对声波进行滤波，并且将所获得的信号均匀地添加到所有的立体混响系数。这使得以有限的计算复杂度获得代表声音环境中的多次反射的效果成为可能。在本发明的这个实施例中，如在前面的实施例中一样，迟反射具有低强度并且不具有关于声源方向的任何信息。因此，这些反射将被用户感知为声波的“回声”，在整个声场景中均匀分布，并代表收听环境。

计算迟反射的声学系数和延迟导致计算许多反射。因此，就计算复杂性而言，它是相对密集的操作。根据本发明的一个实施例，例如在声场景的初始化时，该计算仅执行一次，并且迟反射的声学系数和延迟被重用而无需由立体混响编码器进行修改。这使得以较低成本获得代表收听环境的迟反射成为可能。根据本发明的其他实施例，该计算是迭代地执行的。例如，这些迟反射的声学系数和延迟可以以预定的时间间隔，例如每五秒计算。这使得可以连续地保留代表声场景的迟反射的声学系数和延迟，以及声波的源和用户的相对位置，同时限制与确定迟反射相关的计算复杂性。

在本发明的其他实施例中，当声波的源或用户的位置显著变化时，例如当计算代表声场景的迟反射的声学系数和延迟期间用户的位置与用户的先前位置之间的差大于预定阈值时，计算迟反射的声学系数和延迟。这使得只有当声波的源的位置或用户的位置已经变化足以可觉察地修改迟反射时才计算代表声场景的迟反射的声音系数和延迟。

图7示出了在本发明的一组实施模式中用于对具有多个反射的声波进行编码的方法。

方法700包括变换声波的频率的步骤710。

该方法然后包括基于声波的源的位置和声波传播障碍物的位置来计算声波的球面谐波和多个反射的球面谐波的步骤720。

该方法然后包括步骤730，通过频域中的多个滤波逻辑来对多个反射的球面谐波进行滤波，每个滤波逻辑由反射的声学系数和延迟来进行参数化。

该方法然后包括将声波的球面谐波和来自滤波逻辑的输出相加的步骤740。

上面的示例证明了根据本发明的立体混响编码器计算具有多个反射的声波的立体混响系数的能力。然而，这些示例仅以示例的方式给出并且不以任何方式限制在下面的权利要求中限定的本发明的范围。

Claims

1.一种用于具有多个反射的声波(410)的立体混响编码器(400)，包括：

-用于变换所述声波的频率的逻辑(420)；

-用于基于所述声波的源的位置和所述声波传播的障碍物的位置来计算所述声波的球面谐波和所述多个反射的球面谐波的逻辑(430)；

-频域中的多个滤波逻辑(440)，其接收所述多个反射的球面谐波作为输入，每个滤波逻辑由所述反射的声学系数和延迟来进行参数化；

-用于将所述声波的球面谐波和来自所述滤波逻辑的输出相加的逻辑(450)。

2.根据权利要求1所述的立体混响编码器，其中，用于计算所述声波的球面谐波的所述逻辑被配置为基于所述声波的源的固定位置来计算所述声波的球面谐波和所述多个反射的球面谐波。

3.根据权利要求1所述的立体混响编码器，其中，用于计算所述声波的球面谐波的所述逻辑被配置为基于所述声波的源的连续位置来迭代地计算所述声波的球面谐波和所述多个反射的球面谐波。

4.根据权利要求1至3中的一项所述的立体混响编码器，其中，每个反射由独特的声学系数表征。

5.根据权利要求1至3中的一项所述的立体混响编码器，其中，每个反射由针对频率采样的每个频率的声学系数表征。

6.根据权利要求1至5中的一项所述的立体混响编码器，其中，所述反射是由虚拟声源表示的。

7.根据权利要求1至5中的一项所述的立体混响编码器，还包括用于计算所述反射的虚拟声源的声学系数、延迟和位置的逻辑，所述计算逻辑被配置为根据声音在所述声波的源的位置与用户的估计位置之间行进的距离与所述声音在所述反射的虚拟声源的位置与所述用户的估计位置之间行进的距离的差的估计来计算所述反射的声学系数和延迟。

8.根据权利要求7所述的立体混响编码器，其中，用于计算所述反射的虚拟声源的声学系数、延迟和位置的所述逻辑还被配置为根据所述声音被反射的声波传播的至少一个障碍物的至少一个声学系数来计算所述反射的声学系数。

9.根据权利要求7和8中任一项所述的立体混响编码器，其中，用于计算所述反射的虚拟声源的声学系数、延迟和位置的所述逻辑被配置为将所述反射的虚拟声源的位置计算为所述声波的源的位置相对于与声波传播的障碍物相切的平面的反转。

10.根据权利要求1至9中的一项所述的立体混响编码器，其中，用于计算所述声波的球面谐波和所述多个反射的球面谐波的所述逻辑还被配置为计算在频率变换电路的每个输出频率下所述声波的球面谐波和所述多个反射的球面谐波，所述立体混响编码器还包括用于计算所述声波的双耳系数的逻辑，所述逻辑被配置为通过在用于变换所述声波的频率的电路的每个输出频率下使得所述声波的信号乘以在所述频率下所述声波的球面谐波和所述多个反射的球面谐波来计算所述声波的双耳系数。

11.根据权利要求7至9中的一项所述的立体混响编码器，其中，用于计算所述反射的虚拟声源的声学系数、延迟和位置的所述逻辑被配置为计算多个迟反射的声学系数和延迟。

12.一种用于对具有多个反射的声波进行立体混响编码的方法，包括：

-执行对所述声波的频率变换(710)；

-基于所述声波的源的位置和声波传播的障碍物的位置来计算(720)所述声波的球面谐波和所述多个反射的球面谐波；

-通过用于在频域中滤波的多个逻辑来对所述多个反射的球面谐波进行滤波(730)，每个滤波逻辑由所述反射的声学系数和延迟来进行参数化；

-将所述声波的球面谐波和来自所述滤波逻辑的输出相加(740)。

13.一种用于对具有多个反射的声波进行立体混响编码的、包括记录在计算机可读介质上的程序代码指令的计算机程序产品，所述程序代码指令被配置为：

-变换所述声波的频率；

-基于所述声波的源的位置和声波传播的障碍物的位置来计算所述声波的球面谐波和所述多个反射的球面谐波；

-将用于在频域中进行滤波的多个逻辑参数化，所述多个逻辑接收所述多个反射的球面谐波作为输入，每个滤波逻辑由所述反射的声学系数和延迟来进行参数化；

-当所述程序在计算机上运行时，将所述声波的球面谐波和来自所述滤波逻辑的输出相加。