CN115336292A

CN115336292A - 用于渲染包括离散曲面的声音场景的装置和方法

Info

Publication number: CN115336292A
Application number: CN202180020586.6A
Authority: CN
Inventors: 克里斯汀·鲍斯; 弗兰克·韦弗斯
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2020-03-13
Filing date: 2021-03-12
Publication date: 2022-11-11
Also published as: EP4118845A1; AU2021234130A1; EP4118845B1; MX2022011152A; KR20220153631A; CA3174767A1; TW202135537A; AU2021234130B2; BR112022017907A2; ZA202209893B; JP2023518199A; US20230007429A1; TWI797577B; WO2021180937A1

Abstract

一种用于在声源位置处渲染具有反射对象和声源的声音场景的装置，包括：几何数据提供器(10)，用于提供对声音场景的反射对象的分析以确定由第一多边形(2)和第二相邻多边形(3)表示的反射对象，该反射对象具有相关联的针对第一多边形的第一图像源位置(62)和针对第二多边形的第二图像源位置(63)，其中，第一图像源位置和第二图像源位置导致包括与第一图像源位置(62)相关的第一可见区(72)、不可见区(80)、以及与第二图像源位置(63)相关的第二可见区(73)的序列；图像源位置生成器(20)，用于生成附加图像源位置(90)，使得附加图像源位置(90)位于第一图像源位置与第二图像源位置之间；以及声音渲染器(30)，用于在声源位置处渲染声源，并且附加地用于当收听者位置(130)位于第一可见区内时在第一图像源位置处渲染声源，用于当收听者位置位于不可见区域(80)内时在附加图像源位置(90)处渲染声源，或者用于当收听者位置位于第二可见区域内时在第二图像源位置处渲染声源。

Description

用于渲染包括离散曲面的声音场景的装置和方法

技术领域

本发明涉及音频处理，并且具体地，涉及用于渲染包括由几何声学领域中的图像源建模的反射的声音场景的音频信号处理。

背景技术

几何声学应用于可听化，即听觉场景和环境的实时和离线音频渲染[1,2]。这包括虚拟现实(VR)和增强现实(AR)系统，如MPEG-I 6-DoF音频渲染器。为了渲染具有六个自由度(DoF)的复杂音频场景，应用了几何声学领域，其中声音数据的传播使用已知的光学方法(例如，光线追踪)进行建模。具体地，基于源自光学的模型对墙壁处的反射进行建模，其中在墙壁处反射的光线的入射角导致等于入射角的反射角。

实时可听化系统(如虚拟现实(VR)或增强现实(AR)系统中的音频渲染器)通常基于反射环境的几何数据来渲染早期镜面反射[1,2]。然后使用几何声学方法(如光线追踪[3]或图像源方法[4])来找到被反射声音的有效传播路径。如果反射平面表面与入射声音的波长相比较大，则这些方法是有效的[1]。此外，与入射声音的波长相比，表面上的反射点到反射表面边界的距离也必须较大。

如果几何数据通过三角形或矩形近似曲面，则经典的几何声学方法不再有效，并且伪声变得可听到。图6中示出了所产生的“迪斯科球效应”。对于移动的收听者或移动的声源，图像源的可见性将在可见与不可见之间交替，从而导致永久地切换定位、音色和响度。

如果使用经典图像源模型，则通常没有针对给定问题应用的缓解技术[5]。如果除了镜面反射之外还对漫反射建模，则这将进一步减少该效应，但无法解决该问题。总之，现有技术中没有描述针对该问题的解决方案。

发明内容

本发明的目的是提供一种用于缓解几何声学中的迪斯科球效应的构思，或者提供一种渲染提供改进音频质量的声音场景的构思。

该目的通过权利要求1的用于渲染声音场景的装置、权利要求18的渲染声音场景的方法、或权利要求19的计算机程序来实现。

本发明基于以下发现：可以通过执行对声音场景中的反射几何对象的分析以确定反射几何对象是否导致可见区域和不可见区域来解决与几何声学中所谓的迪斯科球效应相关联的问题。对于不可见区域，图像源位置生成器生成附加图像源位置，使得附加图像源位置位于与相邻可见区域相关联的两个图像源位置之间。此外，声音渲染器被配置为：在声源位置处渲染声源以获得直接路径的音频印象，以及取决于收听者位置是位于可见区域内还是位于不可见区域内来在图像源位置或附加图像源位置处附加地渲染声源。通过该过程，缓解了几何声学中的迪斯科球效应。该过程可以应用于可听化，例如，实时和离线音频渲染听觉场景和环境。

在优选实施例中，本发明提供了若干组件，其中一个组件包括几何数据提供器或几何预处理器，其检测诸如“圆边”或“圆角”的曲面。此外，优选实施例涉及图像源位置生成器，该图像源位置生成器将扩展的图像源模型应用于所识别的曲面，即“圆边”或“圆角”。

具体地，边缘是表面的边界线，并且角是两条或更多条会聚线会合的点。圆边是两个平面之间的边界线，该两个平面通过三角形或多边形近似倒圆的连续表面。圆角或倒圆的角是若干平面的公共顶点，该若干平面通过三角形或多边形近似倒圆的连续表面。具体地，当虚拟现实场景例如包括广告柱或广告圆柱时，该广告柱或广告圆柱可以通过多边形平面(例如三角形或其他多边形平面)来近似，并且由于多边形平面不是无限小的，因此在可见区域之间可能出现不可见区域。

通常，将存在有意的边缘或角，即要按原样声学地表示的音频场景中的对象，并且由于声学处理而导致的任何效应都是预期的。然而，倒圆的角或圆角或倒圆的边缘或圆边是音频场景中的几何对象，其导致迪斯科球伪声，或者换言之，当收听者相对于固定源从可见区域向不可见区域移动时，导致降低音频质量的不可见区域，或者当固定收听者收听移动源时，导致将用户带入不可见区域，然后带入可见区域，然后再带入不可见区域。或者，备选地，当收听者和声源都移动时，可能是收听者在一个时间点位于可见区域内，而在另一时间点位于不可见区域内，这仅是由于应用了几何声学模型，但与通过用于渲染声音场景的装置或对应方法尽可能近似的真实世界声学场景无关。

由于本发明在球体和圆柱体或其他曲面上生成高质量的音频反射，因此本发明是有利的。扩展的图像源模型对于诸如近似圆柱体、球体或其他曲面的多边形的基元特别有用。最重要的是，本发明产生了一种用于计算一阶反射的快速收敛迭代算法，特别依赖于用于对反射进行建模的图像源工具。优选地，除了考虑频率选择反射特性的材料均衡器之外，还应用特定的频率选择均衡器，该材料均衡器通常是取决于例如反射器直径的高通滤波器。此外，在优选实施例中，考虑距离衰减、传播时间和频率选择的壁吸收或壁反射。优选地，附加图像源位置生成的发明应用“照亮”暗区或不可见区域。除了与多边形平面相关联的经典图像源之外，针对倒圆的边缘和角的附加反射模型依赖于该附加图像源的生成。优选地，出于计算一阶反射的目的，优选地使用截头体跟踪的技术将图像源连续外推到“暗”区或不可见区域中。在其他实施例中，该技术还可以扩展到二阶或更高阶反射处理。然而，执行本发明以应用一阶反射的计算已经导致高音频质量，并且已经发现执行更高阶反射计算尽管是可能的，但鉴于附加获得的音频质量，将并不总是证明附加处理要求是合理的。本发明提供了一种稳健的、相对容易实现但仍然强大的工具，用于对复杂声音场景中的反射进行建模，该复杂声音场景具有有问题或特定反射对象，该反射对象在不应用本发明的情况下将遭受不可见区域的影响。

附图说明

随后参考附图讨论本发明的优选实施例，在附图中：

图1示出了用于渲染声音场景的装置的实施例的框图；

图2示出了实施例中的图像源位置生成器的实施方式的流程图；

图3示出了图像源位置生成器的另一实施方式；

图4示出了图像源位置生成器的另一优选实施方式；

图5示出了几何声学中图像源的构造；

图6示出了导致可见区和不可见区的特定对象；

图7示出了特定反射对象，其中附加图像源被放置在附加图像源位置处以“照亮”不可见区；

图8示出了由几何数据提供器应用的过程；

图9示出了声音渲染器的实施方式，该声音渲染器用于在声源位置处渲染声源以及用于取决于收听者的位置而在图像源位置或附加图像源位置处附加地渲染声源；

图10示出了边缘上的反射点R的构造；

图11示出了与倒圆的角相关的静区；以及

图12示出了与例如图10的倒圆的边缘相关的静区或静截头体。

具体实施方式

图1示出了用于在声源位置处渲染具有反射对象和声源的声音场景的装置。具体地，声源由声源信号表示，该声源信号例如可以是单声道或立体声信号，并且在声音场景中，声源信号是在声源位置处发出的。此外，声音场景通常具有关于收听者位置的信息，其中收听者位置一方面包括例如三维空间内的收听者位置，或者其中在另一方面，收听者位置引发三维空间内的收听者头部的特定取向。收听者可以相对于她或他的耳朵被定位在三维空间中的特定位置处，从而导致三个维度，并且收听者还可以围绕三个不同的轴转动他的头，从而导致附加的三个维度，使得可以处理六自由度的虚拟现实或增强现实情形。在优选实施例中，用于渲染声音场景的装置包括几何数据提供器10、图像源位置生成器20和声音渲染器30。几何数据提供器可以被实现为用于在实际运行之前执行特定操作的预处理器，或者几何数据提供器可以被实现为也在运行时进行其操作的几何处理器。然而，提前执行几何数据提供器的计算(即在实际虚拟现实或增强现实渲染之前)将使处理平台从对应几何预处理器任务中解放出来。

图像源位置生成器依赖于源位置和收听者位置，并且具体地，由于收听者位置将在运行时改变，因此图像源位置生成器将在运行时操作。对于声音渲染器30也是如此，该声音渲染器30附加地在运行时使用声源数据、收听者位置来操作并且如果需要(即，如果用户位于不可见区中，该不可见区必须由根据本发明的图像源位置生成器所确定的附加图像源来“照亮”)则附加地使用图像源位置和附加图像源位置来操作。

优选地，几何数据提供器10被配置用于提供对声音场景的反射对象的分析以确定由第一多边形和第二相邻多边形表示的特定反射对象。第一多边形具有相关联的第一图像源位置，并且第二多边形具有相关联的第二图像源位置，其中例如如图5所示构建这些图像源位置。这些图像源是镜像在特定壁处的“经典图像源”。然而，第一图像源位置和第二图像源位置导致包括与第一图像源位置相关的第一可见区、与第二图像源位置相关的第二可见区、以及位于第一可见区与第二可见区之间的不可见区的序列，例如如图6或图7所示。图像源位置生成器被配置用于生成附加图像源位置，使得位于附加图像源位置处的附加图像源位于第一图像源位置与第二图像源位置之间。优选地，图像源位置生成器以经典方式附加地生成第一图像源和第二图像源，即通过例如在特定镜像壁处进行镜像，或者如图6或图7中的情况，当反射壁较小并且不包括源的矩形投影与壁相交的壁点时，对应的壁仅出于图像源构建的目的而延伸。

声音渲染器30被配置用于在声源位置处渲染声源，以在收听者位置处获得直接声音。此外，为了也渲染反射，当收听者位置位于第一可见区内时，在第一图像源位置处渲染声源。在这种情况下，由于收听者位置使得由于迪斯科球效应导致的任何伪声根本不会发生，因此图像源位置生成器不需要生成附加图像源位置。当收听者位置位于与第二图像源相关联的第二可见区内时也是如此。然而，当收听者位于不可见区内时，则声音渲染器使用附加图像源位置并且不使用第一图像源位置和第二图像源位置。代替对第一相邻多边形和第二相邻多边形处的反射进行建模的“经典”图像源，声音渲染器出于反射渲染的目的而仅渲染根据本发明生成的附加图像源位置以便用声音填充或照亮不可见区。通过使用图像源位置生成器生成第一图像源位置与第二图像源位置之间的附加图像源的本发明处理，避免了将导致永久切换定位、音色和响度的任何伪声。

图6示出了所谓的迪斯科球效应。具体地，反射表面用黑色进行勾勒并用1、2、3、4、5、6、7、8表示。每个反射表面或多边形1、2、3、4、5、6、7、8也由图6中所指示的在对应表面的法线方向上的法线向量表示。此外，每个反射表面具有相关联的可见区。在71处指示了与源位置100处的源S和反射表面或多边形1相关联的可见区。此外，例如，针对其他多边形或表面2、3、4、5、6、7、8的对应可见区在图6中由附图标记72、73、74、75、76、77、78示出。可见区以如下方式生成：即仅在与特定多边形相关联的可见区内，满足由声源S发出的声音的入射角等于反射角的条件。例如，由于多边形1的延伸很小，并且由于仅针对较小可见区71内的反射角可以满足入射角等于反射角，因此多边形1具有很小的可见区71。

此外，图6还具有位于收听者位置130处的收听者L。由于收听者L位于与多边形编号4相关联的可见区74内，因此使用在S/4处示出的图像源64来渲染针对收听者L的声音。在图6中的64处指示的该图像源S/4负责对反射表面或多边形编号4处的反射进行建模，并且由于收听者L位于与针对特定壁的图像源相关联的可见区74内，因此不会出现伪声。然而，如果收听者在可见区73与可见区74之间的静区中移动，或者移动到可见区74与可见区75之间的不可见区中，即当收听者向上或向下移动时，则经典渲染器将停止使用图像源S/4渲染，并且由于收听者没有位于与图像源S/3 63或S/5 65相关联的可见区73或可见区75中，因此在没有本发明的情况下渲染器将不对任何反射进行渲染。

在图6中，示出了迪斯科球效应，并且用黑色勾勒反射表面，灰色区域标记第n图像源“Sn”是可见的区域，并且S在源位置处标记源，以及L在收听者位置130处标记收听者。图6中作为特定反射对象的反射对象例如可以是从上方观看的广告柱或广告圆柱，声源例如可以是相对于广告柱固定的特定位置处的汽车，以及收听者例如是在广告柱周围走动以查看广告柱上的内容的人。收听的人通常将听到来自汽车(即，从位置100到人的位置130)的直接声音，并且附加地还将听到广告柱处的反射。

图5示出了图像源的构造。具体地，相对于图6，图5的情形将示出图像源S/4的构造。然而，图6中的壁或多边形4甚至没有达成，直到源位置100与图像源位置64之间的直接连接。在图6中在源100与图像源120之间的直接连接处不存在图5中所示的作为用于基于源100生成图像源120的镜像平面的壁140。然而，出于构建图像源的目的，特定壁(例如，图6中的多边形4)被延伸以便在壁处具有用于对源进行镜像的镜像平面。此外，在经典图像源处理中，除了无限壁之外，还假设源发出平面波。然而，该假设对于本发明来说并不重要，并且对于无限壁也是如此，因为，出于镜像壁的目的，实际上仅需要无限壁来说明底层的数学模型。

此外，图5示出了在壁上的入射角与从壁的反射角相同的条件。此外，保持从源到接收者的传播路径的路径长度。从源到接收者的路径长度与从图像源到接收这的路径长度完全相同，即r₁+r₂，并且传播时间等于总路径长度与声速c的商。此外，与1/r成比例的声压p的距离衰减或与1/r²成比例的声能的距离衰减通常由渲染图像源的渲染器进行建模。

此外，壁吸收/反射行为借助于壁吸收或反射系数α进行建模。优选地，系数α取决于频率，即表示频率选择性吸收或反射曲线H_w(k)，并且通常具有高通特性，即高频比低频被更好地反射。在优选实施例中考虑了该行为。图像源应用的优势在于，在图像源的构建以及对图像源关于传播时间、距离衰减和壁吸收的描述之后，壁140将完全从声音场景中移除并仅由图像源120进行建模。

图7示出了有问题的情形，其中具有相关联的第一图像源位置S/262的第一多边形2和具有与其关联的第二图像源位置63或S/3的第二多边形3以它们之间的短角度进行放置，并且收听者130位于与第一图像源62相关联的第一可见区72和与第二图像源S/3 63相关联的第二可见区73之间的不可见区中。为了“照亮”图7所示的不可见区80，生成了位于第一图像源位置62与第二图像源位置63之间的附加图像源位置90。代替借助于如图5所示针对经典过程构建的图像源63或图像源62对反射进行建模，现在使用附加图像源位置90对反射进行建模，该附加图像源位置90优选地至少在特定公差内具有到反射点的相同距离。

对于附加图像源位置90，出于在不可见区80中渲染一阶反射的目的，使用相同的路径长度、传播时间、距离衰减和壁吸收。在优选实施例中，确定反射点92。当从上方观看时，反射点92位于第一多边形与第二多边形之间的交界处，并且通常处于竖直位置，例如在由收听者130的高度和源100的高度确定的广告柱的示例中。优选地，附加图像源位置90位于连接收听者130和反射点92的线上，其中在93处指示了该线。此外，优选实施例中的附加声源90的精确位置位于线93与连线91的交点处，该连线91连接具有与不可见区80相邻的可见区的图像源位置62和63。

然而，图7的实施例仅示出了最优选实施例，其中精确计算了附加图像源位置的路径。此外，取决于收听者位置130，也精确计算了连接线92上的附加声源位置的具体位置。当收听者L更靠近可见区73时，声源90更靠近经典图像源位置63，反之亦然。然而，与简单地遭受不可见区相比，将附加声源位置定位在图像声源62与图像声源63之间的任何位置将已经极大地改进整个听觉印象。尽管图7示出了具有附加声源位置的精确位置的优选实施例，但另一过程将是要将附加声源定位在相邻声源位置62和63之间的任何位置处，使得在不可见区80中渲染反射。

此外，尽管优选地取决于精确的路径长度来精确地计算传播时间，但其他实施例依赖于路径长度的估计，如取决于图像源位置63的修改路径长度，或其他相邻图像源位置62的修改路径长度。此外，关于壁吸收或壁反射建模，出于渲染附加声源位置90的目的，可以使用相邻多边形之一的壁吸收，或者如果两个吸收系数彼此不同则可以使用两个吸收系数的平均值，并且甚至可以取决于收听者更靠近哪个可见区而应用加权平均，使得与具有更远离收听者位置的可见区的另一相邻壁的吸收/反射数据相比，具有用户更靠近的可见区的壁的特定壁吸收数据接收加权相加中的更高加权值。

图2示出了图1的图像源位置生成器20的过程的优选实施方式。在步骤21中，确定收听者是在可见区(例如，图7的72和73)中还是在不可见区80中。在确定用户在可见区中的情况下，当用户在区域72中时，确定图像源位置例如S/2 62，或者如果用户在可见区73中，则确定图像源位置63或S/3。然后，如步骤23所示，将关于图像源位置的信息发送到图1的渲染器30。

备选地，当步骤21确定用户位于不可见区80内时，确定图7的附加图像源位置90，并且一旦如步骤24所示确定附加图像源位置，将关于附加图像源位置的该信息以及(如果适用)诸如路径长度、传播时间、距离衰减或壁吸收/反射信息的其他属性发送到渲染器，如步骤25所示。

图3示出了步骤21的优选实施方式，即，在特定实施例中，如何确定收听者是在可见区中还是在不可见区中。为此，设想了两个基本过程。在一个基本过程中，基于源位置100和对应多边形将两个相邻可见区域72和73计算为截头体，然后确定收听者是否在这些可见截头体之一中。当确定收听者没有位于截头体之一中时，如步骤26所示，然后得出用户位于不可见区中的结论。备选地，代替计算描述图7的可见区72和73的两个截头体，另一过程是要实际确定描述不可见区80的不可见截头体，并且如果不可见截头体被确定，则当收听者位于退出截头体中时决定收听者位于不可见区80内。当如图3的步骤27和步骤26的结果确定收听者处于不可见区中时，则如图2的步骤24或图3的步骤24所示计算附加图像源位置。

图4示出了在优选实施例中用于计算附加图像源位置90的图像源位置生成器的优选实施方式。在步骤41中，以经典或标准过程来计算第一多边形和第二多边形的图像源位置，即图7的图像源位置62和63。此外，如步骤42所示，确定边缘或角上的反射点，该边缘或角已经由几何数据提供器10确定为是“倒圆的”边缘或角。图7中的反射点92的确定例如是在两个多边形2和3之间的交叉线上，并且在竖直维度也进行精确渲染的情况下，在步骤42中，取决于收听者的高度和源的高度以及其他属性(例如，收听者距反射点或线92的距离以及源距反射点或线92的距离)来确定反射点的竖直尺寸。此外，如框43所示，通过连接收听者位置130和反射点92并且通过将该线进一步外推到图像源位置所位于的并已在框41中确定的区域中来确定声线。该声线由图7中的附图标记93示出。在步骤44中，计算由框41确定的标准图像源之间的连接线，然后如框45所示，声线93与连接线91的交点被确定为附加声源位置。应当注意，图4所示的步骤的顺序不是强制性的。由于仅在步骤44之前需要步骤41的结果，因此可以在计算步骤41之前已经计算步骤42和43，等等。唯一的要求是，例如，步骤42必须在步骤43之前执行，使得例如可以建立声线。

随后，给出另外的过程以便示出计算附加图像源位置的另一过程。扩展的图像源模型需要在反射器的“暗区”(即，图像源可见的“亮区”之间的区域)中外推图像源位置(参见图1)。在该方法的第一实施例中，针对每个圆边创建截头体，并且检查收听者是否位于该截头体内。截头体被如下创建：对于边缘的两个相邻平面，即左平面和右平面，通过在左平面和右平面上对源进行镜像来计算图像源S_L和S_R。根据这些点以及边缘的起点和终点可以定义海赛正规(Hesse-Normal)形式的四个平面k∈[1,4]，其中法线向量

指向截头体的内部，

如果距离

对于所有4个平面都大于或等于0，则收听者位于定义针对给定圆边的模型的覆盖区域的截头体内。图12中示出了不可见区截头体，图12附加地示出了源位置100以及属于相应多边形1和多边形2的图像源61和图像源62。截头体从多边形1和2之间的边缘开始，并朝向源位置打开，从绘图平面之外进入绘图平面。

在这种情况下，可以如下确定圆边上的反射点：

让

为源位置

到边缘上的正交投影，并且让

为收听者位置

到边缘上的正交投影。这得到反射点

如下：

图10中示出了反射点的构造，图10示出了收听者位置L、源位置S、投影Ps和Pl、以及得到的反射点，

对圆角的覆盖区域的计算非常相似。这里，k个相邻平面得到k个图像源，这些图像源与角位置一起导致由k个平面包围的截头体。同样，如果收听者与这些平面的距离都大于或等于零，则收听者位于圆角的覆盖区域内。反射点

由角点本身给出。

该情形(即不可见截头体或圆角)在图11中示出，图11示出了属于四个多边形或平面1、2、3、4的四个图像源61、62、63、64。在图11中，源位于可见区中并且没有位于不可见区中，该不可见区以位于角处的尖端开始并远离四个多边形打开。

对于高阶反射，可以根据截头体跟踪方法来扩展该方法，其中当每个截头体碰到表面、圆边或圆角时，将每个截头体拆分为子截头体。

图8示出了几何数据提供器的另一优选实施方式。优选地，几何数据提供器作为真实数据提供器操作，其在运行期间生成关于对象的预存储数据以便指示对象是具有可见区和介于其间的不可见区的序列的特定反射对象。几何数据提供器可以使用在初始化期间执行一次的几何预处理器来实现，因为它不取决于收听者或源位置。与此相反，由图像源位置生成器应用的扩展的图像源模型在运行时执行，并且取决于收听者和源位置来确定边缘反射和角反射。

几何数据提供器可以应用曲面检测。也被称为几何处理器的几何数据提供器在初始化过程或运行时间中提前计算特定反射对象确定。如果例如使用CAD软件导出几何数据，则几何数据提供器优选地使用尽可能多的关于曲率的信息。例如，如果表面是从圆形几何基元(如球体或圆柱体)或样条插值构造的，则几何预处理器/几何数据提供器优选地在CAD软件的导出例程内实现，并且检测和使用来自CAD软件的信息。

如果没有关于表面曲率的先验知识，则几何预处理器或几何数据提供器需要通过仅使用三角形或多边形网格来实现圆边和圆角检测器。例如，这可以通过计算两个相邻三角形1、2或1a、2a之间的角度Φ来完成，如图8所示。具体地，该角度在图8中被确定为是“面角”，其中图8的左侧部分示出了正的面角，并且图8的右侧部分示出了负的面角。此外，小箭头示出了图8中的面法线。如果面角低于特定阈值，则形成边缘的两个相邻多边形中的相邻边缘被认为表示曲面部分并被标记出来。如果与角连接的所有边缘都被标记为圆形，则该角也被标记为圆形，并且一旦该角变得与声音渲染相关，用于生成附加图像源位置的图像源位置生成器的功能就被激活。然而，当确定某个反射对象不是特定反射对象而是其中任何伪声不是由声音场景创建者期望或者甚至预期的直接对象时，图像源位置生成器仅用于确定经典图像源位置，但对于这种反射对象，根据本发明对附加图像源位置的任何确定被去激活。

图9示出了图1的声音渲染器30的优选实施例。声音渲染器30优选地包括直接声音滤波器级31、一阶反射滤波器级32和可选的二阶反射滤波器级、以及可能的一个或多个更高阶反射滤波器级。

此外，取决于声音渲染器30所需的输出格式，即取决于声音渲染器是经由耳机、经由扬声器输出还是仅用于特定格式的存储或传输，提供了特定数量的输出加法器，例如左加法器34、右加法器35和中央加法器36以及可能的用于左环绕输出声道或右环绕输出声道的其他加法器等。虽然左加法器34和右加法器35优选地用于虚拟现实应用的耳机再现的目的，但也可以例如使用用于特定输出格式的扬声器输出的目的的任何其他加法器。例如，当需要经由耳机的输出时，则直接声音滤波器级31取决于声源位置100和收听者位置130来应用头部相关的传递函数。出于一阶反射滤波器级的目的，应用对应的头部相关的传递函数，但现在一方面针对收听者位置130，并且另一方面针对附加声源位置90。此外，任何特定传播延迟、路径衰减或反射效应也被包括在一阶反射滤波器级32中的头部相关的传递函数中。出于更高阶反射滤波器级的目的，还应用了其他附加声源。

例如，如果输出旨在用于扬声器设置，则直接声音滤波器级将应用不同于头部相关的传递函数的其他滤波器，例如执行基于向量的幅度平移的滤波器。在任何情况下，直接声音滤波器级31、一阶反射滤波器级32和二阶反射滤波器级33中的每一个计算用于如图所示的加法器级34、35、36中的每一个的分量，并且左加法器34然后计算左耳机扬声器的输出信号，并且右加法器35计算右耳机扬声器的耳机信号等。在与耳机不同的输出格式的情况下，左加法器34可以传送左扬声器的输出信号，并且右加法器35可以传送右扬声器的输出信号。如果在双扬声器环境中仅存在两个扬声器，则不需要中央加法器32。

本发明的方法避免了迪斯科球效应，该效应在使用经典图像声源技术[3,4]对由离散三角形网格近似的曲面进行可听化时发生。该新颖的技术避免了不可见区，使反射始终是可听到的。对于该过程，有必要通过阈值面角来识别曲面的近似。该新颖的技术是对原始模型的扩展，利用被识别为曲率的表示的特殊处理面。

经典图像声源技术[3,4]不考虑给定的几何可以(部分地)近似曲面。这导致暗区(静默)从相邻面的边缘点被丢弃(参见图1)。沿着这种表面移动的收听者取决于他/她所在的位置(照亮/不可见区)观察到反射被打开/关闭。这导致令人不快的听觉伪声，也降低了真实感的程度，因此降低了沉浸感。本质上，经典图像源技术无法真实地渲染这种场景。

参考文献

[1]

M.“Auralization:fundamentals of acoustics,modelling,simulation,algorithms and acoustic virtual reality.”Springer Science&BusinessMedia,2007。

[2]Savioja,L.,and Svensson,U.P.“Overview of geometrical room acousticmodeling techniques.”The Journal of the Acoustical Society of America 138.2(2015):708-730。

[3]Krokstad,A.,Strom,S.,and

S."Calculating the acousticalroom response by the use of a ray tracing technique."Journal of Sound andVibration 8.1(1968):118-125。

[4]Allen,J.B.,and Berkley,D.A."Image method for efficientlysimulating small room acoustics."The Journal of the Acoustical Society ofAmerica 65.4(1979):943-950。

[5]Borish,J."Extension of the image model to arbitrary polyhedra."TheJournal of the Acoustical Society of America 75.6(1984):1827-1836。

Claims

1.一种用于在声源位置处渲染具有反射对象和声源的声音场景的装置，包括：

几何数据提供器(10)，用于提供对所述声音场景的反射对象的分析以确定由第一多边形(2)和第二相邻多边形(3)表示的反射对象，所述反射对象具有相关联的针对所述第一多边形的第一图像源位置(62)和针对所述第二多边形的第二图像源位置(63)，其中，所述第一图像源位置和所述第二图像源位置导致包括与所述第一图像源位置(62)相关的第一可见区(72)、不可见区(80)、以及与所述第二图像源位置(63)相关的第二可见区(73)的序列；

图像源位置生成器(20)，用于生成附加图像源位置(90)，使得所述附加图像源位置(90)位于所述第一图像源位置与所述第二图像源位置之间；以及

声音渲染器(30)，用于在所述声源位置处渲染所述声源，以及附加地，

用于当收听者位置(130)位于所述第一可见区内时，在所述第一图像源位置处渲染所述声源，

用于当所述收听者位置位于所述不可见区(80)内时，在所述附加图像源位置(90)处渲染所述声源，或者

用于当所述收听者位置位于所述第二可见区内时，在所述第二图像源位置处渲染所述声源。

2.根据权利要求1所述的装置，其中，所述几何数据提供器(10)被配置为获取关于在初始化阶段期间存储的反射对象的预存储信息，并且其中，所述图像源位置生成器(20)被配置为响应于指示所述反射对象的预存储信息而生成所述附加图像源位置(90)。

3.根据权利要求1或2所述的装置，其中，所述几何数据提供器(10)被配置为：在运行期间或在初始化阶段期间并且使用由计算机辅助设计CAD应用提供的关于所述声音场景的几何数据来检测所述反射对象。

4.根据前述权利要求中的一项所述的装置，其中，所述几何数据提供器(10)被配置为：在运行期间或在初始化阶段期间将具有圆形几何形状、弯曲几何形状、或从样条插值导出的几何形状的对象检测为所述反射对象。

5.根据权利要求1或2中的一项所述的装置，其中，所述几何数据提供器(10)被配置为：

计算反射对象的两个相邻多边形之间的角度，并且当所述角度低于阈值时将所述两个相邻多边形标记为一对特定的多边形，

计算所述反射对象的两个另外的相邻多边形之间的另外的角度，并且当所述另外的角度低于所述阈值时将所述两个另外的相邻多边形标记为另外一对特定的多边形，以及

当所述另外的相邻多边形和所述相邻多边形具有共同的边缘，或者属于同一角时，检测所述反射对象。

6.根据前述权利要求中的一项所述的装置，

其中，所述图像源位置生成器(20)被配置为：分析所述收听者位置(130)是否在所述不可见区(80)中；以及仅当所述收听者位置(130)位于所述不可见区(80)时生成所述附加图像源位置(90)。

7.根据权利要求6所述的装置，其中，所述图像源位置生成器(20)被配置为：确定与所述第一多边形相关联的第一几何范围、或与所述第二多边形相关联的第二几何范围、或在所述第一几何范围与所述第二几何范围之间的第三几何范围，

其中，所述第一几何范围确定所述第一可见区，或者其中，所述第二几何范围确定所述第二可见区，或者其中，所述第三几何范围确定所述不可见区(80)，以及

其中，所述第一几何范围或所述第二几何范围被确定为：使得对于第一几何区或第二几何区中的位置，满足从所述源位置到所述第一多边形或所述第二多边形的入射角等于从所述第一多边形或所述第二多边形的反射角的条件，或者

其中，所述第三几何范围被确定为：使得对于所述不可见区(80)中的位置，不满足反射角等于入射角的条件。

8.根据权利要求6或7所述的装置，

其中，所述图像源位置生成器(20)被配置为计算(26)针对所述第一多边形的第一截头体并确定(27)所述收听者位置是否位于所述第一截头体内，或者

其中，所述图像源位置生成器(20)被配置为计算(26)针对所述第二多边形的第二截头体并确定(27)所述收听者位置(130)是否位于所述第二截头体内，或者

其中，所述图像源位置生成器(20)被配置为计算(26)不可见区截头体并确定(27)所述收听者是否位于所述不可见区截头体内。

9.根据权利要求8所述的装置，其中，所述图像源位置生成器(20)被配置为定义四个平面，所述四个平面具有指向所述第一截头体、所述第二截头体或所述不可见区截头体内部的法线向量，以及

其中，所述图像源位置生成器(20)被配置为：确定(27)所述收听者位置(130)到每个平面的距离是否大于或等于0；以及当所述收听者到每个平面的距离大于或等于0时，检测到所述收听者位于所述第一截头体、所述第二截头体或所述不可见区截头体的截头体内。

10.根据前述权利要求中的一项所述的装置，

其中，所述图像源位置生成器(20)被配置为将所述附加图像源位置(90)计算为在所述第一图像源位置(62)与所述第二图像源位置(63)之间的位置。

11.根据权利要求10所述的装置，其中，所述图像源位置生成器(20)被配置为在所述第一图像源位置(62)与所述第二图像源位置(63)之间的连接线(91)上计算所述附加图像源位置(90)。

12.根据权利要求10所述的装置，其中，所述图像源位置生成器(20)被配置为将所述附加图像源位置(90)计算为围绕反射点(92)的半径为r1的圆弧上的位置，其中r1表示所述源位置(100)与所述反射点(92)之间的距离。

13.根据权利要求10或11或12所述的装置，其中，所述图像源位置生成器(20)被配置为计算所述附加图像源位置(90)，使得所述附加图像源位置(90)与所述第二图像源位置(63)之间的距离与所述收听者位置(130)到所述第二可见区(73)的距离成比例，或者使得所述附加图像源位置(90)与所述第一图像源位置(62)之间的距离与所述收听者位置(130)到所述第一可见区(72)的距离成比例。

14.根据权利要求11或12或13所述的装置，

其中，所述图像源位置生成器(20)被配置为：相对于所述第一多边形(2)或所述第二多边形(3)或者所述第一多边形(2)与所述第二多边形(3)之间的相邻边缘，使用针对所述声源位置(100)的向量的正交投影和针对所述收听者位置(130)的向量的正交投影来确定反射点(92)，或者将所述第一多边形(2)与所述第二多边形(3)彼此连接的点确定为所述反射点(92)，以及

其中，所述图像源位置生成器(20)被配置为将连接所述收听者位置(130)和所述反射点(92)的线(93)与所述第一图像源位置(62)和所述第二图像源位置(63)之间的连接线(91)的交点确定为所述附加图像源位置(90)。

15.根据前述权利要求中的一项所述的装置，

其中，所述图像源位置生成器(20)被配置为通过在由所述第一多边形定义的平面(2)处镜像所述声源位置(100)来计算所述第一图像源位置(62)，或者

其中，所述图像源位置生成器(20)被配置为通过在由所述第二多边形定义的平面(3)处镜像所述声源位置(100)来计算所述第二图像源位置(63)。

16.根据前述权利要求中的一项所述的装置，

其中，所述声音渲染器(30)被配置为渲染所述声源，使得使用由以下至少一个定义的渲染滤波器(31、32、33)对声源信号进行滤波：对应图像声源位置到所述收听者位置之间的距离以及由所述距离造成的延迟时间、以及与所述第一多边形或所述第二多边形相关联的吸收系数或反射系数、或与所述第一多边形或所述第二多边形相关联的频率选择性吸收或反射特性。

17.根据前述权利要求中的一项所述的装置，

其中，所述声音渲染器(30)被配置为：使用直接声音滤波级(31)使用所述声源信号以及所述声源位置(100)和所述收听者位置来渲染所述声源；以及使用所述声源信号以及对应附加声源位置和所述收听者位置(130)来将所述声源渲染为一阶反射滤波器级中的一阶反射，其中，所述对应图像声源位置包括第一图像声源位置、或第二图像声源位置、或附加图像声源位置(90)。

18.一种在声源位置处渲染具有反射对象和声源的声音场景的方法，包括：

提供对所述声音场景的反射对象的分析以确定由第一多边形(2)和第二相邻多边形(3)表示的反射对象，所述反射对象具有相关联的针对所述第一多边形的第一图像源位置(62)和针对所述第二多边形的第二图像源位置(63)，其中，所述第一图像源位置和所述第二图像源位置导致包括与所述第一图像源位置(62)相关的第一可见区(72)、不可见区(80)、以及与所述第二图像源位置(63)相关的第二可见区(73)的序列；

生成附加图像源位置(90)，使得所述附加图像源位置(90)位于所述第一图像源位置与所述第二图像源位置之间；以及

在所述声源位置处渲染所述声源，以及附加地，

当收听者位置(130)位于所述第一可见区内时，在所述第一图像源位置处渲染所述声源，

当所述收听者位置位于所述不可见区(80)内时，在所述附加图像源位置(90)处渲染所述声源，或者

当所述收听者位置位于所述第二可见区内时，在所述第二图像源位置处渲染所述声源。

19.一种计算机程序，当运行在计算机或处理器上时，用于执行根据权利要求18所述的方法。