CN116095594A

CN116095594A - 虚拟环境中渲染实时空间音频的系统和方法

Info

Publication number: CN116095594A
Application number: CN202210666397.2A
Authority: CN
Inventors: 冯建元; 杭睿翔
Original assignee: Dayin Network Technology Shanghai Co ltd
Current assignee: Dayin Network Technology Shanghai Co ltd
Priority date: 2021-11-08
Filing date: 2022-06-13
Publication date: 2023-05-09
Also published as: US11632647B1; US20230143917A1

Abstract

本发明提供了一种新型实时空间音频渲染系统，包括可在通信设备上运行的实时空间音频渲染计算机软件应用程序。该应用程序将收听者在虚拟房间中的单声道音频源渲染成立体声音频。收听者是可以移动的。为房间内的每个收听者渲染立体声音频。实时空间音频渲染系统有两种不同的模式：有混响和无混响。混响可以提供房间的维度感。首先，直达声处理模块生成直达声立体声音频，可体现空间音频的方向感和距离感。当需要混响时，还需执行混响处理模块，使得最后生成的空间音频可体现房间的维度感。

Description

虚拟环境中渲染实时空间音频的系统和方法

相关申请的交叉引用

本申请要求申请日为2021年11月8日，申请号为17/520,956的美国申请的优先权。

技术领域

本发明涉及一种实时通信中的音频渲染技术，具体而言，本发明涉及虚拟环境中的实时空间音频渲染技术。更具体而言，本发明涉及一种用于在虚拟环境中渲染实时立体声音频的系统和方法。

背景技术

在现实世界的交流中，人们可以从声源处听到声音，并分辨声源的方向和距离。这是由双耳效应所决定的。双耳效应要求收听者两耳接收到的声波信号的时延和频谱能量分布是不同的。因此，空间音频应至少具有两个声道(立体声音频)才能在实时通信环境(如在线游戏环境)中为用户提供双耳效应。参与人员(或简称为参与者)在实时通信(RTC)虚拟环境中位于不同的房间条件下，比如在线会议室或虚拟剧院等。他们也可以在自己的房间内从一个地方移动到另一个地方。房间内可能有多个音频源，例如说话声、电视等。

但是，在实时通信中，很多设备如笔记本电脑或手机可能只支持单通道录音。即使设备支持立体声录制，RTC应用程序使用的音频编解码器也可能不支持立体声音频。因此，RTC虚拟环境中的音频通常是单声道格式。除了硬件和音频编解码器的限制外，在RTC虚拟环境中，每个音频源的位置都可以是变化的。换句话说，对于单声道音频信号需要一种新的实时空间音频渲染系统，来根据音频源和收听者的实时位置生成立体声音频。

因此，需要一种在虚拟环境中为收听者生成立体声音频的新型音频渲染系统和方法。实时空间音频渲染系统需要通过来自音频源的单声道音频信号、收听者和音频源的实时虚拟位置以及收听者的实时方位将实时立体声音频信号以最短的时间延迟传送至每一个听众。实时空间音频渲染系统将音频源进行渲染并混合成立体声播放格式以便传送给虚拟房间中的收听者。此外，收听者可以通过立体声音频分辨每个音频源的方向和距离，这使得虚拟RTC环境更接近真实世界的聆听体验。此外，实时空间音频渲染系统还需要生成具有混响效果的立体声音频信号。

发明内容

总体而言，本发明提供了一种用于在虚拟环境中对来自单声道的实时空间音频进行渲染的计算机实现方法。该方法由实时空间音频渲染系统内的实时空间音频渲染计算机软件应用程序执行，具体包括：确定是否为渲染单声道音频源集合的空间音频设置了混响效果；确定该单声道音频源集合中的每一个音频源分别相对于收听者在虚拟环境中的动态位置集合；获得一个离散的头部相关脉冲响应(HRIR)集合；将该离散HRIR集合转换为连续HRIR集合；基于该动态位置集合确定该单声道音频源集合内每个单声道音频源的耳间时间差；根据上述耳间时间差修改该连续HRIR，生成修改后的HRIR；对单声道音频源集合内的每个单声道音频源的音频信号应用增益控制，生成修改后的音频信号；根据修改后的HRIR对修改后的音频信号进行卷积运算，生成单声道音频源集合中每个单声道音频源的空间音频信号；以及，将单声道音频源集合中的所有单声道音频源的空间音频信号进行组合，生成直达声(无混响)音频，该直达声音频可由通信设备播放。空间音频是立体声音频。该方法还包括将直达声音频的电平压缩到目标范围之内以供通信设备播放，其中空间音频是立体声音频。

在设置混响时，则该方法还包括：根据收听者所在房间的空间尺寸数据和收听者的位置以及上述单声道音频源集合，生成双耳房间脉冲响应(BRIR)；使用BRIR将单声道音频源集合中的每个单声道音频源的音频信号进行卷积运算，生成单声道音频源集合中的每个单声道音频源的混响立体声音频；将单声道音频源集合中的所有单声道音频源的混响立体声音频进行组合，生成组合混响音频；以及，在左声道和右声道均将直达声音频与组合混响音频进行混合，生成最终的空间音频用于在通信设备上播放。

本发明还提供了一种实时空间音频渲染系统，该系统包括在通信设备上运行的实时空间音频渲染计算机软件应用程序。实时空间音频渲染计算机软件应用程序能够：确定是否在渲染单声道音频源集合的空间音频时设置了混响效果；确定该单声道音频源集合中的每一个音频源分别相对于收听者在虚拟环境中的动态位置集合；获得一个离散的头部相关脉冲响应(HRIR)集合；将该离散HRIR集合转换为连续HRIR集合；确定单声道音频源集合内每个单声道音频源的耳间时间差；根据上述耳间时间差修改该连续HRIR，生成修改后的HRIR；对单声道音频源集合中的每个单声道音频源的音频信号应用增益控制，生成修改后的音频信号；根据修改后的HRIR对修改后的音频信号进行卷积运算，生成单声道音频源集合内每个单声道音频源的空间音频信号；以及，将单声道音频源集合内的所有单声道音频源的空间音频信号进行组合，生成直达声音频，该直达声音频可由通信设备播放。在一些实施方案中，空间音频是立体声音频。实时空间音频渲染计算机软件应用程序还可用于将直达声音频的电平压缩到目标范围之内以供通信设备播放。

在配置混响时，实时空间音频渲染计算机软件应用程序还可：根据收听者所在房间的一组维度数据和收听者的位置以及上述单声道音频源集合，生成双耳房间脉冲响应(BRIR)；使用BRIR将单声道音频源集合中的每个单声道音频源的音频信号进行卷积运算，生成单声道音频源集合中的每个单声道音频源的混响立体声音频；将单声道音频源集合中的所有单声道音频源的混响立体声音频进行组合，生成组合混响音频；以及，在左声道和右声道均将直达声音频与组合混响音频混合，生成最终空间音频用于在通信设备上播放。在进一步的实施方案中，实时空间音频渲染计算机软件应用程序还适用于将最终空间音频的电平压缩到目标范围。

附图说明

本专利或申请文件包含至少一个彩色附图。专利局将根据需求并在支付相关费用的情况下，提供带有彩色附图的本专利或专利申请的副本。

在权利要求书中将会特别指出本发明的功能特征，同时也可通过参考以下附图及其相关描述来更好地理解本发明本身以及本发明的构成和使用方法。本发明的全部附图也是构成本发明的一部分内容，其中相同的附图标记表示相同的部件：

图1是根据本发明实施例所绘制的实时空间音频渲染系统生成空间音频的过程的流程图。

图2是根据本发明实施例所绘制的包含实时空间音频渲染系统的实时通信系统的示例框图。

图3是根据本发明实施例所绘制的包含实时空间音频渲染系统的通信设备的示例框图。

图4是根据本发明实施例所绘制的包含实时空间音频渲染系统的计算机服务器的示例框图。

图5是根据本发明实施例所绘制，展示了计算机空间音频渲染系统将来自一个或多个音频源的单声道格式音频信号渲染成无混响的立体声格式音频这一过程的流程图。

图6是根据本发明实施例所绘制的在虚拟环境中单声道音频源集合相对于收听者及其朝向的动态位置的示意图。

图7是根据本发明实施例所绘制，展示了空间音频渲染系统将来自一个或多个音频源的单声道格式音频信号渲染成有混响的立体声格式音频这一过程的流程图。

图8是根据本发明实施例所绘制的虚拟房间示意图。

本领域的普通技术人员应当可以理解，为了简单明了地展示以上附图中的各个元素，附图并不一定是按比例绘制的。附图中的一些部件的尺寸可能相对于其他部件比例放大，其目的为帮助理解本发明。此外，本文描述或说明的某些元件、零件、组件、模块、步骤、操作、事件和/或过程的特定顺序在实际应用中可以进行改变。本领域普通技术人员应当理解，为简单明了地阐述，在市售可行的实施方案中那些众所周知且易于理解的有用和/或必需的元件可能在本文中并未进行描述，以便能清晰地呈现本发明的各种实施方案。

具体实施方式

新型实时(RT)空间音频渲染系统可输出带混响的立体声音频，也可输出不带混响的立体声音频。混响体现了虚拟房间大小的维度感。根据不同的使用情况，并不一定需要混响效果，因为过多的混响可能会降低可理解性，并且在某些情况下并不适用，比如在互联网上进行的多方虚拟会议中。在一些实施方案中，实时空间音频渲染系统包括运行在通信设备上的计算机软件应用程序(在本文中也称为实时空间音频渲染计算机软件应用程序)，用于将来自一个或多个音频源的单声道音频信号转换为将立体声音频提供给收听者，其中所述通信设备由收听者或计算机服务器进行操作。当计算机服务器进行空间音频渲染时，计算机软件应用程序通过互联网连接从收听者的通信设备处获取输入数据，生成立体声音频并通过互联网将立体声音频数据转发到收听者的通信设备以供播放。空间音频渲染软件应用程序包括一个或多个计算机程序，其由计算机软件编程语言编写，例如C、C++、C#、Java等。

图1示出了实时空间音频渲染软件应用程序提供空间音频(如立体声音频)的过程，该过程整体以100表示。参考图1，在102处，实时空间音频渲染软件应用程序确定是否设置混响效果，若否，则在104处，实时空间音频渲染软件应用程序渲染空间音频并且不带混响效果。生成的空间音频结合了听众的方向和距离因素。换句话说，空间音频体现了方向感和距离感。这种空间音频在本文中也被称为直达声音频、直达声音频信号或者干声。如果设置需要混响，则在106处，实时空间音频渲染软件应用程序渲染空间音频并且带混响效果。用户可通过用户输入接口或配置来设置是否需要混响。

图2、3和4进一步示出了通信设备和计算机服务器。图2是实时通信系统的示意框图，整体上以200表示。202和204分别表示两个示例通信设备。206表示计算机服务器。电子设备202-206均可访问互联网208。

图3示出了通信设备202(如笔记本电脑、平板电脑、智能手机等)。图3是通信设备202的示意框图。设备202包含处理器302、适配处理器302且具有一定容量的存储器304、适配处理器302的音频输出接口306(如耳机)、可访问互联网208且适配处理器302的网络接口308(如WiFi网络接口)，以及其他接口310(如视频输出接口和音频输入接口)。设备202还包括运行在处理器302上的操作系统322(如

等)。在设备202上加载并运行一个或多个计算机软件应用程序324(如上述新型实时空间音频渲染软件应用程序)。计算机软件应用程序324由计算机软件编程语言(如C、C++、C#、Java等)实现。

图4对计算机服务器206做了进一步说明。图4是计算机服务器206的示意框图。计算机服务器206包含处理器402、适配处理器402且具有一定容量的存储器404，以及适配处理器402并连接到互联网208的网络接口406(如WiFi网络接口)。计算机服务器206还包括在处理器402上运行的操作系统422(如

)。在计算机服务器206上运行一个或多个计算机软件应用程序424(如上述新型实时空间音频渲染软件应用程序)。作为服务器软件应用程序的新型实时空间音频渲染软件应用程序424是使用计算机软件编程语言(例如C、C++、C#、Java等)实现的。

图5显示了空间音频渲染软件应用程序324(或424)将来自一个或多个音频源的单声道格式音频信号渲染成无混响的立体声格式音频这一过程的流程图，该过程整体以500表示。在502处，空间音频渲染软件应用程序确定一个单声道音频源集合(即一个或多个)中的各个音频分别相对于收听者的动态位置集合。每个音频源的动态位置都与时间相关，因为收听者是可以移动的。当收听者移动时，在不同的时间音频源相对于收听者的位置是不同的。图6对动态位置做出了进一步阐述。

图6是音频源相对于收听者及收听者朝向的动态位置示意图。在该模拟场景中，有两个音频源P1和P2，分别由点P1(α1,β1)和P2(α2,β2)表示。收听者位置由坐标系的原点处表示，收听者的朝向由Y轴表示。两个音频源P1和P2在时间t的动态位置分别用P1[t]和P2[t]表示。每个动态位置由方位角α、仰角β和距离d表示。方位角α是水平面上与Y轴逆时针方向的夹角。仰角β是与X轴和Y轴组成的垂直/中间平面之间的角度。因此，仰角β在Z轴方向上为正值，在Z轴相反方向上为负值。距离d是音频源和收听者之间的欧拉距离。因此，两个音频源的时间相关动态位置P1[t]和P2[t]可以分别表示为(α1,β1,d1)和(α2,β2,d2)。在虚拟环境系统中，动态位置P1[t]和P2[t]是实时提供的。

回到图5，在504处，空间音频渲染软件应用程序获得离散的头部相关脉冲响应(HRIR)集合。在一些实施方案中，可以预先记录该离散HRIR的集合并以数据表的方式呈现。例如，可以每隔15度的方位角和仰角，以及每隔1米的距离测量该离散HRIR集合。在每个离散角度(α，β)和距离处，都有一个代表左右侧HRIR的HRIR数据集合。在506处，空间音频渲染软件应用程序将离散HRIR集合转换为连续HRIR。在一些实施方案中，所述转换是通过内插来实现的，例如线性内插。在本发明中，步骤504-506被统称为确定连续HRIR。

在实时情景中，当收听者移动时，收听者和音频源之间的距离可能会发生变化。因此，音频源与收听者两耳之间的距离也会发生变化。延迟差异对于收听者的空间感非常重要。因此，在508处，空间音频渲染软件应用程序通过计算音频源到收听者的每只耳朵的距离并将该距离除以音速来确定音频源集合内的每个单声道音频源的耳间时间差(ITD)。ITD计算公式如下：

其中a代表收听者的头围，c代表音速，θ_I是以弧度为单位的耳间方位角。对于收听者左侧的音频源，θ_I值为0到π/2；对于收听者右侧的音频源，θ_I值为π/2到π。

在510处，空间音频渲染软件应用程序使用耳间时间差修改连续HRIR，生成修改后的HRIR。在一些实施方案中，可将一些为零的样本添加到连续HRIR中。例如，如果音频源在左侧，ITD为1ms，HRIR的采样率为48000Hz，则可在右侧HRIR的开始处添加48个值为零的样本。

在512处，空间音频渲染软件应用程序对音频源的单声道音频信号应用增益控制。具体而言，在512处，根据单声道音频源和收听者之间的距离调整音频源的音量。将调节音量的增益应用于来自音频源的音频信号。增益遵循音量传播衰减规则。在一些实施方案中，增益计算公式如下所示：

其中A(d)是距离d处的增益，d_ref是参考距离，A_ref是参考增益。d_ref和A_ref是预定义的参数，这意味着在距离d_ref处，应用于单声道音频信号的增益量为A_ref。用单声道音频信号乘以A(d)，生成修改后的音频信号。

在514处，空间音频渲染软件应用程序使用修改后的HRIR(右耳和左耳)对修改后的单声道音频信号进行卷积运算，生成音频源的立体声音频信号。立体声音频信号包括右声道和左声道。在516处，空间音频渲染软件应用程序组合音频源集合(如图6所示的音频源P1和P2)内的每个音频源的立体声音频信号，生成组合的(或混合的)立体声音频信号并在收听者的通信设备202(或204)上播放。例如，可将所有音频源的音频信号加在一起来实现混合。步骤514生成的组合立体声音频信号在本文中也被称为直达声音频、干声、直达声立体声音频、直达声立体声音频数据和直达声立体声音频信号。需要注意的是，如果只有一个音频源，则步骤516保持相同的音频信号。在进一步的实施方案中，在518处，空间音频渲染软件应用对混合音频信号进行压缩，防止混合音频信号声音太大。例如，在518处，使用动态音频压缩器将混合空间音频信号的电平压缩到目标范围以内，防止混合空间音频声音太大。518处的压缩空间音频在本发明中也被称为压缩直达声音频。

当空间音频渲染需要房间混响效果时，则在空间音频渲染时添加基于双耳房间脉冲响应(BRIR)的混响。图7示出了空间音频渲染软件应用程序将来自一个或多个音频源的单声道格式音频信号渲染成带有混响的立体声格式音频的过程的流程图，整体过程以700表示。在702处，空间音频渲染软件应用程序生成直达声音频。在一些实施方案中，在702处，空间音频渲染软件应用程序运行步骤502-516。由步骤516生成的立体声音频是直达声音频。

在704处，空间音频渲染软件应用程序根据房间的空间尺寸以及收听者和音频源的位置生成BRIR。图8是一个虚拟房间的示意图。在虚拟环境(本发明中也被称为房间或虚拟房间)中，有三个音频源Audio1(a1、b1、c1)、Audio2(a2、b2、c2)和Audio3(a3,b3,c3)，收听者(如头像所示)位于(a0,b0,c0)。房间的宽度、长度和高度分别用a、b和c表示。在一些实施方案中，可使用图像方法或镜像源(ISM)生成实时BRIR。如果使用ISM方法，当声波撞击坚硬墙壁时，将墙壁反射的声波信号视作为来自墙壁后面的镜像源的声波。声波在进入收听者耳朵之前被多次反射。因此，混响可通过有限数量的镜像源的总和来模拟。由于房间的空间尺寸以及收听者和单声道音频源的位置的不同，音频源和收听者之间的反射路径也是不同的。可使用ISM方法对每个音频源估算得出一个BRIR集合。

在706处，空间音频渲染软件应用程序使用BRIR对音频源的单声道音频信号进行卷积运算，生成音频源的混响立体声音频(本发明中也称为混响音频或混响音频信号)。在708处，空间音频渲染软件应用程序将生成的音频源集合(如P1和P2)中所有音频源信号的混响立体声音频信号进行组合，生成组合的混响立体声音频信号(或简称为混响音频)。在一些实施方案中，可使用下列等式将音频源集合的混响立体声音频信号相加来实现组合操作：

其中S_i表示第i个音频源的混响立体声音频数据，n表示音频源的数量。

在710处，空间音频渲染软件应用程序将直达声立体声音频和组合的混响立体声音频混合，用于左声道和右声道，生成最终的立体声音频用于在设备202上播放。在一些实施方案中，混合就是将该两类音频数据相加。在进一步的实施方案中，在712处，空间音频渲染软件应用程序还会将最终音频信号的电平压缩到目标范围以防止回放声音太大。例如，在712处，使用动态音频压缩器将最终音频信号的电平压缩到目标范围之内。

根据以上描述，本发明显然可以存在许多其他的修改和变化。因此，请注意在所附权利要求的范围内，本发明可以采用不同于以上具体描述的方式来实现。

本发明的上述描述是为了更好地说明和解释，而并非有排他性意图或将本发明限定在上述的特定形式。以上描述是为了更好地解释本发明的原理和这些原理的实际应用，以使本领域的相关技术人员能够最好地利用本发明在所预期的特定用途中实现各种实施方案和进行各种修改。另外请注意，本发明中“一”或“一个”等词同时包括单数和复数形式。而与此相反，在适当情况下，本发明所提到的多个元素的情况也应包括其单数形式。

本发明内容的范围并不仅限于以上说明书的内容，而是由、权利要求书来确定保护范围。此外，尽管下面提出的权利要求可能范围较窄，但是应该认识到，本发明的所提供的范围比权利要求所提出的范围要宽泛得多。我们将在要求本申请优先权的一个或多个申请中提出更大范围的权利要求。在以上说明书和附图中公开的部分内容如果没有包含在权利要求书的范围之内，则这些发明内容并不对外公开，并且我们保留今后针对这些发明内容提出一项或多项专利申请的权利。

Claims

1.一种在虚拟环境中将单声道音频源渲染成实时空间音频的计算机实现方法，所述方法由实时空间音频渲染系统中的实时空间音频渲染计算机软件应用程序执行，并且所述方法包括：

1)确定是否在将单声道音频源集合渲染为空间音频时设置了混响效果；

2)确定所述单声道音频源集合中的每一个音频源分别相对于收听者在虚拟环境中的动态位置集合；

3)获得一个离散HRIR集合；

4)将所述离散HRIR集合转换为连续HRIR；

5)基于所述动态位置集合，确定所述单声道音频源集合内每个单声道音频源的耳间时间差；

6)根据所述耳间时间差修改所述连续HRIR，生成修改后的HRIR；

7)对所述单声道音频源集合内的每个单声道音频源的音频信号应用增益控制，生成修改后的音频信号；

8)根据所述修改后的HRIR对修改后的音频信号进行卷积运算，生成所述单声道音频源集合中每个单声道音频源的空间音频信号；以及

9)将所述单声道音频源集合中的所有单声道音频源的空间音频信号进行组合，生成直达声音频，所述直达声音频可由通信设备播放。

2.根据权利要求1所述的方法，还包括将所述直达声音频的电平压缩到目标范围之内以供所述通信设备播放。

3.根据权利要求1所述的方法，如果设置了需要混响，所述方法还包括：

1)根据收听者所在房间的空间尺寸数据和收听者的位置以及所述单声道音频源集合，生成BRIR；

2)使用所述BRIR将所述单声道音频源集合中的每个单声道音频源的音频信号进行卷积运算，生成所述单声道音频源集合中的每个单声道音频源的混响立体声音频；

3)将所述单声道音频源集合中的所有单声道音频源的混响立体声音频进行组合，生成组合混响音频；以及

4)在左声道和右声道均将所述直达声音频与所述组合混响音频进行混合，生成最终的空间音频用于在所述通信设备上播放。

4.根据权利要求3所述的方法，还包括将所述最终的空间音频的电平压缩到目标范围之内。

5.根据权利要求1～4任一项所述的方法，其中所述空间音频为立体声音频。

6.一种实时空间音频渲染系统，所述系统包括在通信设备上运行的实时空间音频渲染计算机软件应用程序，所述实时空间音频渲染计算机软件应用程序被配置为：

3)获得一个离散HRIR集合；

4)将所述离散HRIR集合转换为连续HRIR；

5)基于所述动态位置集合确定所述单声道音频源集合内每个单声道音频源的耳间时间差；

6)根据所述耳间时间差修改所述连续HRIR，生成修改后的HRIR；

7.根据权利要求6所述的实时空间音频渲染系统，所述实时空间音频渲染系统将所述直达声音频的电平压缩到目标范围之内以供通信设备播放。

8.根据权利要求6所述的实时空间音频渲染系统，如果设置了需要混响，所述实时空间音频渲染系统还被配置为：

2)使用所述BRIR将所述单声道音频源集合中的每个单声道音频源的音频信号进行卷积运算，生成单声道音频源集合中的每个单声道音频源的混响立体声音频；

4)在左声道和右声道均将所述直达声音频与组合混响音频进行混合，生成最终的空间音频用于在通信设备上播放。

9.根据权利要求8所述的实时空间音频渲染系统，其中所述实时空间音频渲染系统将所述最终的空间音频的电平压缩到目标范围之内。

10.根据权利要求6～9任一项所述的实时空间音频渲染系统，其中所述空间音频为立体声音频。