CN105376690A

CN105376690A - 生成虚拟环绕声的方法和装置

Info

Publication number: CN105376690A
Application number: CN201510742182.4A
Authority: CN
Inventors: 孙学京
Original assignee: Beijing Tuoling Inc
Current assignee: Beijing Tuoling Inc
Priority date: 2015-11-04
Filing date: 2015-11-04
Publication date: 2016-03-02

Abstract

本发明涉及一种生成虚拟环绕声的方法和装置，所述方法包括环境声和音频对象处理流程，环境声处理流程包括一阶B格式信号输入，经过旋转矩阵旋转，基于HRTF进行双耳转码后双耳输出，音频对象处理流程包括将一个或多个音频对象编码到高阶ambisonic信号，基于BRIR进行双耳转码后双耳输出，将环境声和音频对象按左、右声道对应混合后分别输出。所述装置包括头部跟踪装置、音频对象输入模块、音频对象B格式编码模块、音频对象虚拟扬声器阵列信号生成模块和音频对象双耳房间脉冲响应模块。本发明能有效且高质量地生成虚拟环绕声，主要用于配合虚拟现实头戴设备进行音频的立体声耳机播放。

Description

生成虚拟环绕声的方法和装置

技术领域

本发明涉及一种生成虚拟环绕声的方法和装置，尤其涉及以立体声耳机为播放设备的虚拟环绕声生成方法和装置，属于信号处理技术领域。

背景技术

在用虚拟现实头戴设备(head-mounteddisplay，HMD)向用户呈现内容时，采用虚拟3D音频技术，通过立体声耳机向用户播放音频内容，目的是想要达到一种效果让用户就像用扬声器阵列(如5.1或7.1)听一样。

在制作虚拟现实音频内容时，通常需要几种声音元素。第一，需要将自然声场(或称为环境音)录制并回放。第二，需要将音频对象(audioobject)进行混音。音频对象由一系列参数描述声音(如小鸟的叫声)，包括不同时刻和在三维空间中的位置。

自然声场的录制与回放有几种常见方法。其中一种是基于ambisonics理论。可以为：终端获取音频文件中包括的B格式信号，将该B格式信号转换为虚拟扬声器阵列信号，将虚拟扬声器阵列信号通过HRTF(HeadRelatedTransferFunction，头相关变换函数)滤波器进行滤波，得到虚拟环绕声。HRTF在时间域所对应的名称是HRIR(HeadRelatedImpulseResponse)。

对于音频对象通常的做法是加上房间模型(roommodel)，将音源与双耳房间脉冲响应(BinauralRoomImpulseResponse，BRIR)做卷积。双耳房间脉冲响应由三个部分组成：直达声、一些离散的早期反射声和晚期混响(混响尾)。

直接将音频对象和BRIR做卷积这种做法的缺点是如果场景复杂，含有大量的音频对象，则复杂度会变得非常高，对于很多音频播放终端，这将导致功耗过大，甚至无法播放。另外，在虚拟现实设备上，还需要根据头部的动作对音频对象位置实时调整，这更极大的加大了运算量，使得在移动虚拟现实设备上应用传统做法变的不切实际。

传统算法还常常用数学和统计的做法在线生成BRIR来避免存储大量的BRIR，比如用反馈延迟网络(feedbackdelaynetworkFDN)来模拟晚期混响。然而人工在线生成的BRIR仍然存在质量不高的问题，无法和真实录制和离线房间模拟工具生成的BRIR相比。

因此，现有的针对立体声耳机播放音频的虚拟环绕声生成方法普遍面临着虚拟环绕声质量不高、运算量大的问题。

发明内容

为了克服现有技术下的上述缺陷，本发明的目的在于提供一种生成虚拟环绕声的方法和装置，其能有效且高质量地生成虚拟环绕声，主要用于配合虚拟现实头戴设备进行音频的立体声耳机播放。

本发明的技术方案是：

一种生成虚拟环绕声的方法，包括对音频对象的如下处理步骤：

获取用户头部旋转角度；

根据所述旋转角度，将音频对象编码到高阶B-格式信号(优选为3阶)；

将所述B-格式信号转换成虚拟扬声器阵列信号；

对所述音频对象的所述虚拟扬声器阵列信号基于双耳房间脉冲响应(BRIR)进行双耳转码，得到音频对象的双耳输出虚拟环绕声信号。

所述音频信号可以为一个或多个。

所述双耳房间脉冲响应优选为离线生成，可以采用真实测量或由专门的软件生成。

将音频对象编码到B-格式信号时，其中水平方向阶数大于或等于垂直方向阶数。进一步地，水平方向编码优选为3阶B-格式信号，垂直方向编码优选为2阶或1阶B-格式信号。

优选的，当电量变低至一定程度时或接收到进入低功耗模式的指令时，将音频对象编码到B-格式信号的阶数调低，具体调低阶数的方式为：

在已知内容在垂直方向上没有大量角度变化时，调低垂直方向的阶数，在已知内容在垂直方向上有大量角度变化时，根据对听觉效果的综合影响，调低垂直方向和/或水平方向的阶数，

在电量变低过程中对阶数的调低采用一步式或多步式，当采用一步式时，只设置一个电量阈值，当低于电量低于该电量阈值时进行一次性的调低，当采用多步式时，划分多个低电量区间，当电量位于某一低电量区间时，将阶数调低到该区间对应的调低程度，低电量区间涵盖的电量值越低，对应的阶数越低，

所述低功耗模式的档位为一档或多档，当采用多档低功耗模式时，在高档位的低功耗模式下，所调低的B-格式信号的阶数低于在低档位下相应B-格式信号的阶数。

所述生成虚拟环绕声的方法还优选包括将环境声转换成环境声的双耳输出虚拟环绕声信号，再将所述音频对象和所述环境声各自的双耳输出虚拟环绕声信号对应混音并双耳输出。

所述将环境声转换成环境声的双耳输出虚拟环绕声信号优选包括如下步骤：

获取环境声的1阶B-格式信号；

根据所述旋转角度，将环境声的所述B-格式信号旋转得到旋转后的B-格式信号；

将环境声的所述旋转后的B-格式信号转换成虚拟扬声器阵列信号；

对环境声的所述虚拟扬声器阵列信号基于头相关变换函数(HRTF)进行双耳转码，得到环境声的双耳输出虚拟环绕声信号。

所述生成虚拟环绕声的方法在实施运算时优选基于以下假定：虚拟扬声器阵列具有左右对称性，用户在房间的中轴线上，用户对应的所述双耳房间脉冲响应和头相关变换函数也具有左右对称性。

一种生成虚拟环绕声的装置，包括：

头部跟踪装置，用于检测用户头部旋转角度；

音频对象输入模块，用于输入原始的音频对象声道信号；

音频对象B格式编码模块，其设有声道信号输入端和角度输入端，分别连接所述音频对象输入模块的输出端和所述头部跟踪装置的输出端，用于根据所述旋转角度将音频对象编码到B-格式信号；

音频对象虚拟扬声器阵列信号生成模块，其输入端连接所述音频对象B格式编码模块的输出端，用于将所述B-格式信号转换成音频对象的虚拟扬声器阵列信号；

音频对象双耳房间脉冲响应模块，其输入端连接所述音频对象虚拟扬声器阵列信号生成模块的音频对象虚拟扬声器阵列信号输出端，用于对所述音频对象的虚拟扬声器阵列信号基于双耳房间脉冲响应进行双耳转码，得到音频对象的双耳输出虚拟环绕声信号。

所述生成虚拟环绕声的装置，还优选包括：

环境声B格式信号输入模块，用于输入原始获取的环境声1阶B-格式信号；

旋转矩阵生成模块，设有用于接收所述头部跟踪装置的输出信号的输入端，用于根据所述头部跟踪装置所检测到的头部旋转角度生成旋转矩阵；

环境声方位调整模块，其待调整信号输入端和旋转矩阵输入端分别连接所述环境声B格式信号输入模块的输出端和所述旋转矩阵生成模块的输出端，用于根据所述旋转矩阵，对环境声的所述B-格式信号进行旋转得到环境声旋转后的B-格式信号；

环境声虚拟扬声器阵列信号生成模块，其输入端连接所述环境声方位调整模块的输出端，用于将环境声旋转后的B-格式信号转换成环境声的虚拟扬声器阵列信号；

环境声头相关变换函数滤波器模块，其输入端连接所述环境声虚拟扬声器阵列信号生成模块的输出端，用于对环境声的所述虚拟扬声器阵列信号基于头相关变换函数进行双耳转码，得到环境声的双耳输出虚拟环绕声信号；

左声道混音器模块，其输入端连接所述音频对象双耳房间脉冲响应模块的左声道输出端和所述环境声头相关变换函数滤波器模块的左声道输出端，用于对上述两路输出进行混音；

右声道混音器模块，其输入端连接所述音频对象双耳房间脉冲响应模块的右声道输出端和所述环境声头相关变换函数滤波器模块的右声道输出端，用于对上述两路输出进行混音；

左数模转换模块和右数模转换模块，其输入端分别连接所述左声道混音器模块和右声道混音器模块，分别用于将左、右声道混音器模块输出的混音后信号转换成待播出的音频。

本发明的有益效果为：

本发明基于ambisonic理论将音频对象转成高阶的B-格式信号，优选2阶或3阶的B-格式信号，可扩展性(Scalability)好，不管对象个数如何增加,运算复杂度都基本保持稳定，因为核心区只和3d，3rdorderambisonic维数(16)相关，由此，理论上所需要的虚拟扬声器阵列中的虚拟扬声器个数最小值最大为16个，运算复杂度都基本保持稳定，既保持了较好的可扩展性，又不因该扩展过度增加运算成本。

如果暂时不考虑用BRIR模型距离，只需要保存16个BRIR即可，因此可以保持较低的内存消耗。

附图说明

图1是本发明的方法一个实施例的原理框图；

图2是本发明的装置的一个实施例的结构示意图。

具体实施方式

本发明提供了一种生成虚拟环绕声的方法，包括对音频对象的如下处理步骤：

(1)通过头部跟踪装置获取用户头部旋转角度；

(2)根据所述旋转角度，将音频对象编码到高阶(优选为2阶或3阶)B-格式信号；

(3)将所述B-格式信号转换成虚拟扬声器阵列信号；以一个一阶B-格式信号[W₁X₁Y₁Z₁]^T为例，转换成虚拟扬声器阵列信号[L₁L₂…L_N]^T的过程就是进行下列运算：

[\begin{matrix} L_{1} \\ L_{2} \\ \cdot \cdot \\ L_{N} \end{matrix}] = [\begin{matrix} G_{w 1} & G_{x 1} & G_{y 1} & G_{z 1} \\ G_{w 2} & G_{x 2} & G_{y 2} & G_{z 2} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ G_{w N} & G_{x N} & G_{y N} & G_{z N} \end{matrix}] [\begin{matrix} W_{1} \\ X_{1} \\ Y_{1} \\ Z_{1} \end{matrix}] = G [\begin{matrix} W_{1} \\ X_{1} \\ Y_{1} \\ Z_{1} \end{matrix}] .

其中，N为虚拟扬声器拓扑结构中包括的虚拟扬声器的数目。上式中所用的G矩阵为ambisonic解码矩阵，可以通过求伪逆矩阵来得出。

(4)对音频对象的所述虚拟扬声器阵列信号基于双耳房间脉冲响应(BRIR)进行双耳转码(通常是3维，即包含高度信息)，得到音频对象的双耳输出虚拟环绕声信号。具体是：从虚拟扬声器信号转到耳机信号对应的二路立体声BRIR矩阵，将该二路立体声矩阵和虚拟扬声器阵列信号进行矩阵乘法，得到虚拟环绕声。BRIR矩阵为

[\begin{matrix} B_{1 L} & B_{2 L} & \cdot \cdot & B_{N L} \\ B_{1 R} & B_{2 R} & \cdot \cdot & B_{N R} \end{matrix}],

则虚拟环绕声为

[\begin{matrix} L \\ R \end{matrix}] = [\begin{matrix} B_{1 L} & B_{2 L} & \cdot \cdot & B_{N L} \\ B_{1 R} & B_{2 R} & \cdot \cdot & B_{N R} \end{matrix}] [\begin{matrix} L_{1} \\ L_{2} \\ \cdot \cdot \\ L_{N} \end{matrix}] = [\begin{matrix} F_{W L} & F_{X L} & F_{Y L} & F_{Z L} \\ F_{W R} & F_{X R} & F_{Y R} & F_{Z R} \end{matrix}] [\begin{matrix} W_{1} \\ X_{1} \\ Y_{1} \\ Z_{1} \end{matrix}] .

所述音频信号可以为一个或多个。

所述双耳房间脉冲响应优选为离线生成，可以采用真实测量或由专门的软件生成，因此不必像现有技术下采用在线生成方式时需要存储大量的BRIR，减少了内存消耗。

将音频对象编码到B-格式信号时，水平方向阶数优选大于或等于垂直方向阶数，例如，水平方向编码优选为3阶B-格式信号时，垂直方向编码优选为2阶或1阶B-格式信号，分别用H3V2、H3V1表示。由于人对高度感知低于平面角度的分辨率，因此采用以上适当在某个特定方向上降低阶数的方法，减少了运算量，但又不明显降低用户对声音的感知效果。

当电量变低至一定程度时或接收到进入低功耗模式的指令时，可以将音频对象编码到B-格式信号的阶数调低，以减小耗电量，当电量得到回复或进入正常模式后，则回复原有的阶数。

具体调低阶数的方式优选为：

例如，对于所述垂直方向阶数，优选动态自动可调，调整方式可以为以下任意一种或两种并存：

(1)根据生成虚拟环绕声的装置的供电电量变化或所接收的进入低功耗模式的指令，动态调整垂直方向阶数，当供电电量变低至一定程度时或接收到进入低功耗模式的指令时，将音频对象编码到B-格式信号的垂直方向阶数调低；例如可以动态从垂直高阶(如3阶)变为2阶，甚至一阶，即由H3V3到H3V2或H3V1。

(2)根据音频对象在垂直方向上的角度变化动态调整垂直方向阶数，当所述音频对象在垂直方向上的角度变化量超过一定值或者角度变化频次加快到一定程度时，则通常应将音频对象编码到B-格式信号的垂直方向阶数保持在相对较高的阶数，以使垂直方向的空间分辨率更加精准，在此情况下，可以调低水平分量的阶数(如果适应的话)，以便降低电耗的情况下尽可能获得较好的综合听觉效果。

所述生成虚拟环绕声的方法还优选包括将环境声转换成环境声的双耳输出虚拟环绕声信号，再将所述音频对象(此时的音频对象主要是指环境声之外的声音内容)和所述环境声各自的双耳输出虚拟环绕声信号对应混音并双耳输出。图1所示为该方法的一个实施例的原理框图。其中，所述将环境声(即图1中的声场信号)转换成环境声的双耳输出虚拟环绕声信号优选包括如下步骤：

获取环境声的1阶B-格式信号；

根据所述旋转角度，将环境声的所述B-格式信号旋转得到旋转后的B-格式信号；具体来说，是根据所述旋转角度生成旋转矩阵，再根据所述旋转矩阵，对环境声的所述B-格式信号(即待调整信号)进行旋转。所谓旋转，即将旋转矩阵与待调整信号矩阵相乘，旋转不改变音频信号矩阵分量的大小，只改变分量的方向。旋转矩阵的阶数与音频信号矩阵相适应。例如，当待调整信号矩阵为[W₂X₂Y₂]^T时，旋转矩阵为

[\begin{matrix} 1 & 0 & 0 \\ 0 & c o s (θ) & - s i n (θ) \\ 0 & s i n (θ) & c o s (θ) \end{matrix}];

当待调整信号矩阵为[W₂X₂Y₂Z₂]^T时，旋转矩阵为

[\begin{matrix} 1 & 0 & 0 & 0 \\ 0 & c o s (θ) & - s i n (θ) & 0 \\ 0 & s i n (θ) & c o s (θ) & 0 \\ 0 & 0 & 0 & 1 \end{matrix}] .

对环境声的所述虚拟扬声器阵列信号基于头相关变换函数(HRTF)进行双耳转码(通常是2维，即不包含高度信息)，得到环境声的双耳输出虚拟环绕声信号。

所述生成虚拟环绕声的方法在实施运算时优选基于以下假定：虚拟扬声器阵列具有左右对称性，用户在房间的中轴线上，用户对应的所述双耳房间脉冲响应和头相关变换函数也具有左右对称性。基于该假设，可以利用高阶B-格式对称性优化方法，显著减少运算量，提高运算效率。

下面描述了如何将音频对象编码到ambisonic域。

将音频对象编码到一阶ambisonic信号：

W = \frac{1}{k} Σ_{i = 1}^{k} s_{i} [\frac{1}{\sqrt{2}}];

X = \frac{1}{k} Σ_{i = 1}^{k} s_{i} [{cosθ}_{i} {cosφ}_{i}];

Y = \frac{1}{k} Σ_{i = 1}^{k} s_{i} [{sinθ}_{i} {cosφ}_{i}];

Z = \frac{1}{k} Σ_{i = 1}^{k} s_{i} [{sinφ}_{i}];

s_i是第i个音频对象，i＝1..k，k是音频对象的个数。θ_i是平面上的角度(方位角),φ_i是垂直方向上的角度。W声道信号表示全方向声波，X声道信号、Y声道信号和Z声道信号分别表示沿空间三个互相垂直取向X、Y、Z的声波。

一阶B-格式信号表示为

[\begin{matrix} W_{1} \\ X_{1} \\ Y_{1} \\ Z_{1} \end{matrix}] .

同理，将音频对象编码到2阶或3阶B-格式信号优选依照下表定义进行：

上表中的三角函数对于方位角θ是偶函数的，则相应B-格式信号的相应分量是左右对称的，如果上表中的三角函数对于方位角θ是奇函数，则相应B-格式信号的相应分量是左右相反的。以一阶B-格式信号为例，从物理意义和坐标来看，w，x，z不分左右，所以如果听着的位置左右对称，并且假定相应的HRTF系数也近似左右对称，那么w，x，z对应的双耳输出的分量对于输出的左右通道是相同的。而y对于左右正好反向。所以y对应的双耳输出的分量对于左右通道是相反的。对于具有对称性的分量，可以采用快速算法，即运算过程中的对称性优化，可进一步降低运算量。

本发明还提供了一种生成虚拟环绕声的装置，包括：

头部跟踪装置，用于检测用户头部旋转角度，通常设置在立体声耳机上或单独固定在用户的头部；

音频对象输入模块，用于输入原始的音频对象声道信号；

如图2所示，所述生成虚拟环绕声的装置还优选包括：

左数模转换模块和右数模转换模块，其输入端分别连接所述左声道混音器模块和右声道混音器模块，分别用于将左、右声道混音器模块输出的混音后信号转换成待播出的音频。待播出的音频分别从立体声耳机的左右耳播出。

本发明所称左右、水平、垂直等方位均是从听者(即用户)的视角定义的。

Claims

1.一种生成虚拟环绕声的方法，其特征在于包括对音频对象的如下处理步骤：

获取用户头部旋转角度；

根据所述旋转角度，将音频对象编码到B-格式信号；

将所述B-格式信号转换成虚拟扬声器阵列信号；

对音频对象的所述虚拟扬声器阵列信号基于双耳房间脉冲响应进行双耳转码，得到音频对象的双耳输出虚拟环绕声信号。

2.如权利要求1所述的生成虚拟环绕声的方法，其特征在于所述音频信号为一个或多个。

3.如权利要求2所述的生成虚拟环绕声的方法，其特征在于所述双耳房间脉冲响应离线生成，采用真实测量或由软件生成。

4.如权利要求3所述的生成虚拟环绕声的方法，其特征在于将音频对象编码到B-格式信号时，其中水平方向阶数大于或等于垂直方向阶数。

5.如权利要求4所述的生成虚拟环绕声的方法，其特征在于当电量变低至一定程度时或接收到进入低功耗模式的指令时，将音频对象编码到B-格式信号的阶数调低，具体调低阶数的方式为：

6.如权利要求1、2、3、4或5所述的生成虚拟环绕声的方法，其特征在于还包括将环境声转换成环境声的双耳输出虚拟环绕声信号，将所述音频对象和所述环境声各自的双耳输出虚拟环绕声信号对应混音并双耳输出。

7.如权利要求6所述的生成虚拟环绕声的方法，其特征在于所述将环境声转换成环境声的双耳输出虚拟环绕声信号包括如下步骤：

获取环境声的1阶B-格式信号；

对环境声的所述虚拟扬声器阵列信号基于头相关变换函数进行双耳转码，得到环境声的双耳输出虚拟环绕声信号。

8.如权利要求1-7中任意一项权利要求所述的生成虚拟环绕声的方法，其特征在于所述方法基于以下假定：虚拟扬声器阵列具有左右对称性，用户在房间的中轴线上，用户对应的所述双耳房间脉冲响应和头相关变换函数也具有左右对称性。

9.一种生成虚拟环绕声的装置，其特征在于包括：

头部跟踪装置，用于检测用户头部旋转角度；

音频对象输入模块，用于输入原始的音频对象声道信号；

10.如权利要求9所述的生成虚拟环绕声的装置，其特征在于还包括：