CN104160722B

CN104160722B - 用于声音空间化的听觉传输合成方法

Info

Publication number: CN104160722B
Application number: CN201380009062.2A
Authority: CN
Inventors: 弗兰克·罗塞; 让-吕克·豪赖斯
Original assignee: Individual
Current assignee: AXD Technologies LLC
Priority date: 2012-02-13
Filing date: 2013-02-11
Publication date: 2018-01-12
Anticipated expiration: 2033-02-11
Also published as: EP2815589A1; FR2986932B1; HK1204188A1; JP2015510348A; WO2013121136A1; RU2639955C2; CN104160722A; JP6421385B2; IN2014DN06776A; FR2986932A1; EP2815589B1; KR20140128412A; BR112014019926A2; RU2014133066A

Abstract

本发明涉及一种用于从原始多声道音频文件产生空间化立体声音频数字文件的方法，其特征在于，该方法包括：在每个声道上执行处理以取消串扰的步骤；合并声道以产生立体声信号的步骤；以及为增加声音动态而执行动态过滤和特定均衡的步骤。

Description

用于声音空间化的听觉传输合成方法

技术领域

本发明涉及尤其在听觉传输(transaural)技术领域中的、特别是纳入房间效果的音频信号的声音空间化的领域，声音空间化也称为空间化渲染。

术语“双耳”是指在立体声头戴式耳机、一对耳机或一对扬声器上、以空间化效果恢复声音信号。然而，本发明不限于上述技术，并且特别适用于由“双耳”技术衍生而来的技术，例如在具有多点声音系统的电影院或音乐厅中安装的远程扬声器上的“听觉传输”(商业名称)恢复技术。

本发明的一个特定应用例如是丰富由一对扬声器播放的音频内容以使收听者沉浸在空间化的声音场景中，这特别地包括房间效果或室外效果。

背景技术

对于头戴式耳机或扬声器上的“双耳”技术的实施，现有技术中定义了空间中声音源的位置和收听者双耳之间的声音信号的过滤或传输函数。上述头部的听觉传输函数在频率形式中表示为HRTF(头相关传输函数)以及在时间形式中表示为HRIR(头相关脉冲响应)。对于空间中的一个方向，最终获得两个HRTF：一个针对右耳且一个针对左耳。

特别地，双耳技术在于将头部的这种听觉传输函数应用于单声道音频信号，以获得立体声信号，这使得当用头戴式耳机收听时感觉声音源是来自空间中的一个特定方向。右耳的信号是通过用右耳的HRTF过滤单声道信号而获得的，且左耳的信号是通过用左耳的HRTF过滤同一单声道信号而获得的。

在空间渲染中，当对于收听者考虑这一事实时：即感到声音源或多或少地远离头部，即称为“外化”的现象，并且这与声音源的来源方向无关，在双耳3D渲染中经常发生的是，收听者感觉声音源是在头部内。因此，感觉到的声音源称为非外化的。

各种研究显示，在双耳3D渲染方法中增加房间效果使得能够大大增加声音源的外化。

现有技术中已知专利申请US 2007/011025A，其公开了一种用于声音空间化的方法，该方法包括针对实际位置处的一组实际声音源而确定声学矩阵的步骤，和针对在不同于收听者的实际位置的位置处的一组明显声音源的声学信号传输而计算声学矩阵的步骤。该方法还包括解析传输函数矩阵以向收听者呈现创建了源自明显声音源的声音的音频图像的音频信号的步骤。

现有技术的缺点

现有技术解决方案是固定的并且不能够在多个可能的氛围中选择空间氛围。它们通常基于基于虚拟头部计算的变换矩阵。

现有技术解决方案通常不允许声音环境的外化感觉。

本发明提供的解决方案

物理房间和物理扬声器使得能够计算将用于产生多声道的过滤器。

非限制性具体实施方式

参考附图，通过阅读以下描述，将更好地理解本发明，其中：

-图1示出了用于脉冲信号数据库的构造阶段的设备的一般原理图；

-图2示出了用于获取脉冲信号的设备的示意图；

-图3示出了收听设备的原理图。

根据本发明的方法包括第一处理(1)，其在于响应于参考多频信号，通过记录由扬声器产生的信号，基于多个物理空间中的声学信号的获取而产生脉冲信号的数据库。

然后，对于待空间化的每个音频序列，该方法在于应用一系列处理：

-当待空间化的信号是立体声信号时，该方法包括基于该立体声信号而构造N.i信号的预备步骤(2)；

-基于从上述数据库中选择的脉冲响应文件之一而转换N.i个声道中的每个声道的信号的步骤(3)；

-重新组合如此被转换的N.i个声道的信号以构造空间化立体声信号的步骤(4)。

该立体声信号随后可以由一对标准扬声器播放，以恢复与用于产生脉冲响应信号的空间或这种空间的组合相对应的空间化声音氛围。

构造脉冲响应数据库的初始步骤

该步骤被重复多次。该步骤由图2显示。

对于每个系列的脉冲响应，该步骤在于在物理空间中，例如音乐厅、开放或封闭的场地或给定场所，布置与优选地具有已知质量的放大器(14)相关联的一组已知扬声器(5至11；17)，以及一对麦克风(12、13)，麦克风(12、13)相对于扬声器组(5至11；17)的位置针对正被获取的扬声器组是固定的。

然后，通过使用放大器(14)，将原始多频信号连续地施加于扬声器5至11中的每一个。该原始信号例如是具有声谱中的频率变化的、持续时间在10至90秒之间的序列。这样的信号例如是在20 Hz和20 KHz之间的线性变化，或甚至是覆盖扬声器整个频谱的任何信号。

由有源扬声器产生的声音信号被麦克风对(12、13)接收，并且产生记录的立体声信号。基于该信号，按照已知方式执行96 KHz采样，并且通过原始信号和记录的信号之间的快速傅里叶变换来去卷积，以针对相关物理空间中的相关扬声器而构造脉冲响应。

对于组中的扬声器(5至11)中的每一个，然后对于不同物理空间，复制该步骤，在上述不同物理空间中将一组相同或不同的扬声器与相同或不同的放大器和相同的麦克风放置在一起。

该第一步骤在于构造立体声脉冲响应的数据库。

准备空间化信号的步骤

该步骤使得能够从与传统数字记录相对应的N.i多声道信号中构造空间化立体声音频信号。

该步骤在于在初始步骤期间构造的数据库中选择N+i个脉冲响应。

该选择在于将N+1个信号中的每一个与所述数据库中的脉冲响应之一相关联，要注意的是，脉冲响应的空间中的获取位置对应于与其相关联的声道的空间中的位置。

对于每对“单声道信号/立体声脉冲响应”，实施卷积处理以计算一对立体声空间化信号S_SG和S_SD。

因此，产生了N+i对j个空间化信号S^j _SG和S^j _SD，其中j在1至N+i之间。

例如，如果初始记录是5.1型的，则将构造6对空间化信号。

可选地，对声道进行均衡以改进j个信号的动态。

空间化立体声信号的构造

最终步骤在于重新组合j个信号以构造一对空间化右信号和左信号。

为此，增加与位于左边的空间相对应的j个信号S^j _SG以构造空间化立体声信号的左声道。增加与位于右边的空间相对应的j个信号S^j _SD以构造空间化立体声信号的右声道。

可选地，对声道进行均衡以改进这两个个信号的动态。

立体声初始信号的情形；声道数量的增加和中间声道的创建

当待空间化的信号不是N.i型而仅仅是立体声信号时，执行中间步骤，该中间步骤在于通过在左音轨和右音轨之间的相位提取处理来构造N.i信号，以构造新的不同的信号。

这种相位提取在于通过将左声道信号和相移右声道信号相加的处理来产生对应于重构中央声道的信号，其中相移例如是反相。

为了创建其他“重构”声道，以不同的相移角度对左音轨和右音轨执行相移，并且将相移信号对与凭经验确定的权重相加，以恢复空间化声音氛围。

此外，当创建“重构”声道时，对右信号和左信号施加频率过滤器，以增加信号的动态且保持声音的高保真质量。

信号的重构

图3示出了从一对实际扬声器(17、18)中恢复的设备的示意图。

这对扬声器(17、18)接收能够模拟所计算的扬声器(20至27和30至37)的信号。

所计算的扬声器(20至27)的有效数量对应于用于产生脉冲信号数据库的物理扬声器(5至11；17)的数量，或者对应于根据上述方法重构的虚拟扬声器的数量。

此外，创建虚拟扬声器(30至37)，从而产生在相邻的实际扬声器的组合的声音空间中的感觉，以便填补音孔。

通过修改供给相邻的实际扬声器的信号来创建该虚拟扬声器。

因此，产生十五个声音文件，8个(7.1)对应于基于脉冲信号的处理，且7个通过组合这十五个文件来计算。

根据它们的右、左或中央的分量来分配信号，以产生用于左扬声器的左信号(17)和用于右扬声器的右信号(28)：

-“右”信号对应于所计算的“右”信号(21、22、23)和虚拟的“右”信号(30、31、32)以及具有幅度为50％的权重的虚拟的(33)和计算的(20、27)“中央”信号的相加；

-“左”信号对应于计算的“左”信号(24、25、26)和虚拟的“左”信号(34、35、36)以及具有幅度为50％的权重的虚拟的(33)和计算的(20、27)的中央信号的相加。

这个立体声信号随后被施加到与一对扬声器(18、19)相连的传统音频设备，其将重新产生空间化声音氛围，该氛围对应于用于构造脉冲信号数据库的设备的声音氛围或虚拟声音氛围，该虚拟声音氛围与多个原始氛围的组合相对应，该组合在必要的情况下富含虚拟声音氛围。

Claims

1.一种用于从原始多声道音频文件中产生空间化立体声音频数字文件的方法，其特征在于，所述方法包括：

-通过记录由扬声器产生的信号，基于多个物理空间中的声学信号的获取而产生脉冲信号的数据库；

-当待空间化的信号是立体声信号时，该方法包括基于该立体声信号而构造N.i信号的预备步骤；

-基于从上述数据库中选择的脉冲响应文件之一而转换N.i个声道中的每个声道的信号的步骤，该步骤进一步包括：

-在所述数据库中选择N+i个脉冲响应，该选择在于将N+1个单声道信号中的每一个与所述数据库中的脉冲响应之一相关联，

-对于每对“单声道信号/脉冲响应”进行处理以计算一对立体声空间化信号；

-在每个声道上执行处理以取消串扰的步骤；

-合并所述声道以构造空间化立体声信号的步骤；以及

-为了增加声音动态而执行动态过滤和特定均衡的步骤。

2.根据权利要求1所述的用于产生空间化立体声音频数字文件的方法，其特征在于，取消串扰的所述步骤在于将与其他声道的相移和加权信号相对应的信号增加到每个声道的信号中。

3.根据权利要求1所述的用于产生空间化立体声音频数字文件的方法，其特征在于，所述原始信号是纯声的5.n多声道信号。

4.根据权利要求1所述的用于产生空间化立体声音频数字文件的方法，其特征在于，所述原始信号是基于立体声信号而计算的纯声的5.n多声道信号。