CN111193990B

CN111193990B - 一种抗高频空间混叠的3d音频系统及实现方法

Info

Publication number: CN111193990B
Application number: CN202010009944.0A
Authority: CN
Inventors: 曲天书; 吴玺宏; 林晶
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2021-01-19
Anticipated expiration: 2040-01-06
Also published as: CN111193990A

Abstract

本发明公开了一种抗高频空间混叠的3D音频系统及实现方法。本方法为：1)对于给定的球麦克风阵列，对球面声压进行采样，并对采样的球面声压进行离散球傅里叶变换；其中离散球傅里叶变换的展开阶数不大于截断阶数N；2)根据步骤1)离散球傅里叶变换的展开系数与球面声压展开的真实系数之间的关系得到空间混叠矩阵E；3)通过公式min(||s||₁)、

求解得到信号s；4)根据得到的信号s，通过公式B_N＝Y_Ns将s编码到高阶N，获得高阶的HOA信号B_N；5)将得到的HOA信号乘以球傅立叶变换的逆矩阵，进行重建声场，得到3D音频。

Description

一种抗高频空间混叠的3D音频系统及实现方法

技术领域

本发明属于3D音频技术领域，具体涉及一种抗高频空间混叠的3D音频系统及实现方法。

背景技术

3D音频技术主要指在音频回放时为使听者获得相应的空间听感而采用的相关技术。

现在普遍采用的立体声或环绕声系统所重建的声像仅具备水平方向上的自由度，无法让声像脱离扬声器所在的平面，还未达到2D规格，与3D空间音频定义相差甚远。由于3D音频技术发展与3D视频技术发展的不对等，导致目前无论是在影院还是在家庭，主流的3D多媒体系统都是采用“3D视频+立体声/环绕声”方案，这种实施方案存在视觉感受和听觉感受不一致的缺陷，导致沉浸感和真实感不足，难以达到身临其境的效果。随着人们对声音真实感和沉浸感要求的不断提高以及虚拟现实相关技术的兴起，3D音频回放逐渐得到了重视。

在3D音频回放中，最直接的手段是利用头相关传递函数(Head Related TransferFunction,HRTF)模拟人对于空间中任一方位声源的感知，然而这种方法仅能实现特定方向的音频回放，并且存在前后混淆、头中效应等副作用。其他可行的主流方法有矢量幅度平移(Vector Based Amplitude Panning,VBAP)，波场合成(Wave Field Synthsis,WFS)以及Ambisonics，并且基于Ambisonics的3D音频系统以其独特的优势更具发展前景。首先，它具有录制方便的特点，可以做到录制端和重放端各自独立，在录制时不需要考虑重放时扬声器的布局；其次，它还可向下兼容目前现有的立体声，5.1/7.1等非3D空间音频重放系统；再次，它可提供多种重放方式，既可以使用扬声器重放也可以使用耳机重放；最后，它可以实现基于头跟踪的双耳重放。

Ambisonics具有较长的发展历史，20世纪70年代初，Michael Gerzon提出一阶Ambisonics的实现方案。由于一阶Ambisonics的低空间分辨率不能满足人们的需求，于是许多学者开始对高阶Ambisonics(Higher Order Ambisonics,HOA)进行研究。HOA使用球谐函数作为空间的一组正交基来对声场进行球谐函数分解，得到多通道的HOA信号，根据HOA信号对声场进行分析和重构。理论上，使用的HOA阶数越高，可以精确重构的声场区域越大，但是实际应用中，它的阶数受到麦克风和扬声器个数的限制，随着编码阶数的升高，所需麦克风和扬声器的数量呈平方增加。

基于Ambisonics的3D音频系统可以给用户提供足够的真实感和沉浸感，但是其在实际应用中还面临着一个关键的问题：可用频带窄问题(高频存在严重的空间混叠，方向发生紊乱)。采用32个麦克风的4阶HOA编码的3D音频系统的上截止频率为5.4kHz，这在一些对高频有要求的应用场景(如音乐会录制)是无法忍受的。

高频空间混叠的产生是由于球面麦克风数量受限，不满足奈奎斯特空间采样定理。一个比较直接的方法是增加麦克风的数量和减小阵列的半径。增加麦克风的个数虽然可以缓解空间混叠，但是麦克风的数量跟上截止频率呈平方关系，随着上截止频率的提高，所需麦克风数量急剧增加以至于无法在实际中应用；在不改变麦克风个数的情况下减小阵列半径一方面受到制作工艺的限制，另一方面减小阵列半径会增加低频噪声放大的影响频率。也有学者提出使用多半径的球麦克风阵列结构来拓宽可用频带，但是多半径的阵列需要复杂和昂贵的阵列设计，在实际应用中较为受限。从上述分析可知，在硬件层面拓宽可用频带需要付出较大的代价，故需要一种新的抗空间混叠HOA编码算法，在不改变硬件结构的基础上能够极大限度地提高上截止频率，解决基于Ambisonics的3D音频系统可用频带窄的问题。

发明内容

本发明所要解决的问题是目前基于Ambisonics的3D音频系统可用频带窄的问题，该问题限制了系统在一些对声音有较高要求场景中的应用，如音乐会录制。针对此问题，本发明提供一种抗高频空间混叠的3D音频系统实现方法，利用球麦克风阵列发生空间混叠的固有混叠模式，结合稀疏恢复方法达到在高频进行HOA编码时不受空间混叠影响。

本发明的技术方案为：

一种抗高频空间混叠的3D音频系统实现方法，其步骤包括：

1)对于给定的球麦克风阵列，对球面声压进行采样，并对采样的球面声压进行离散球傅里叶变换；其中离散球傅里叶变换的展开阶数不大于截断阶数N；

2)根据步骤1)离散球傅里叶变换的展开系数

与球面声压展开的真实系数p_nm之间的关系得到空间混叠矩阵E；

3)通过公式min(||s||₁)、

求解得到信号s；其中，Y_N是N阶的球傅立叶变换矩阵，B’_N为根据球麦克风阵列的信号进行HOA编码得到的N阶HOA信号(存在混叠误差)，ε是一设定值；

4)根据步骤3)得到的信号s，通过公式B_N＝Y_Ns将s编码到高阶N，获得不带混叠误差高阶的HOA信号B_N；

5)将步骤4)得到的HOA信号乘以球傅立叶变换的逆矩阵，进行重建声场，得到3D音频。

进一步的，球麦克风阵列采集的信号频率f满足

其中，c是声速，r为球麦克风阵列的半径。

进一步的，截断阶数N<(M+1)²，M是球麦克风阵列中球面麦克风的个数。

进一步的，空间混叠矩阵E为

的矩阵；其中的元素

为球面声压的球傅立叶展开阶数,Q是球面麦克风的数量。

进一步的，将重建声场时得到的每个扬声器信号与对应扬声器的头相关冲击响应进行卷积再叠加，得到双耳信号，实现基于耳机的3D音频系统。

一种抗高频空间混叠的3D音频系统，其特征在于，包括高阶HOA信号生成模块和重建声场模块；其中，

高阶HOA信号生成模块，用于对球麦克风阵列的球面声压进行采样，并对采样的球面声压进行离散球傅里叶变换；其中离散球傅里叶变换的展开阶数不大于截断阶数N；然后根据离散球傅里叶变换的展开系数

与球面声压展开的真实系数p_nm之间的关系得到空间混叠矩阵E；然后通过公式min(||s||₁)、

求解得到信号s；其中，Y_N是N阶的球傅立叶变换矩阵，B’_N为根据球麦克风阵列的信号进行HOA编码得到的N阶HOA信号，ε是一设定值；然后通过公式B_N＝Y_Ns将s编码到N阶，获得N阶的HOA信号B_N；

重建声场模块，用于将得到的HOA信号乘以球傅立叶变换的逆矩阵，进行重建声场，得到3D音频。

本发明的有益效果是：

将球麦克风阵列(32个麦克风，4阶HOA编码)的上截止频率从5.4kHz提高到10kHz，解决了高频空间混叠问题，进而解决了基于Ambisonics的3D音频系统在不同场景的通用性问题。

附图说明

图1是基于Ambisonics的3D音频系统的全局方案；

图2是抗空间混叠HOA(Higher Order Ambisonics)编码的流程图；

图3是半径为5cm的球麦克风阵列(32个麦克风，刚性球)的空间混叠模式图；

图4为单声源实验的各频率的空间指向；

(a)是使用理想的HOA信号，(b)传统的HOA编码方式，

(c)本发明的编码方法，(d)本发明优化后的编码方法；

图5为两个声源实验的各频率的空间指向；

(a)是使用理想的HOA信号，(b)传统的HOA编码方式，

(c)本发明的编码方法，(d)本发明优化后的编码方法。

具体实施方式

下面结合附图和实施例对本发明提供的一种抗高频空间混叠的3D音频系统实现方法进行介绍。

图1是基于Ambisonics的3D音频系统的全局方案，本系统的具体实现步骤包括空间混叠矩阵求解、抗空间混叠HOA编码和实验验证。图2是空间混叠矩阵求解流程图。各步骤的具体实现如下：

1.空间混叠矩阵求解

对于给定的球麦克风阵列，发生空间混叠的模式是确定的，故可以利用空间混叠模式的信息来达到抗空间混叠效果。以下对服从近似均匀分布的球麦克风阵列的空间混叠模式进行分析：

采用球坐标系，θ为仰角(范围为0到π),φ为水平角(逆时针增加,取值范围0到2π)。刚性球的半径为r，其表面的声压可以使用球谐函数按公式(1)进行展开：

这里W_n(kr)是径向函数，n是球面声压使用球谐函数展开后的阶数，k是波数，r是球麦克风阵列的半径。若对球面声压进行球傅立叶变换，其结果用p_nm(根据球面连续声压得到的n阶m级球傅立叶变换系数)表示：

在实际应用中需对球面声压进行采样，并且展开阶数截断到N，则球面声压展开可以写成如下矩阵形式：

对离散的球面声压进行离散球傅里叶变换的结果用

(根据球面离散声压得到的n阶m级离散球傅立叶变换系数)表示：

其中，Q是球面麦克风的数量。当阵列的阶数为N(阵列的阶数是由球面麦克风个数和采样方案决定的，N<(M+1)²,M是球面麦克风的个数。通常，HOA编码时截断阶数等于阵列的阶数)，球面声压进行离散球傅立叶展开后阶数大于N的高阶部分会按某种模式往低阶叠加，造成低阶成分受到污染，这就是空间混叠。想要不发生空间混叠需要满足球面声压函数是阶数有限的，且小于N。随着频率的增加，球面声压函数展开的阶数越高。故对于一个已知的阵列结构，信号频率f满足

(c是声速)，可认为空间混叠误差是可忽略不计的，这里称作上截止频率。信号频率超过上截止频率时会发生较严重的空间混叠，但是固定阵列的混叠模式是固定的，可以通过分析并利用混叠模式来改善空间混叠问题。

球面声压的球傅立叶展开的系数是p_nm，展开的阶数为

通过分析计算得到的系数

与球面声压展开的真实系数p_nm(真实系数p_nm是在球面连续的公式推导出来的)之间的关系来分析混叠发生的过程。

其中，

这里α_q是跟球面麦克风分布有关的参数，常用的采样方案是近似均匀采样，故可以认为是1，Y_n,m(θ_q,φ_q)和Y_n’,m’(θ_q,φ_q)是球傅立叶变换矩阵，代表球谐函数在每点的值。E称为空间混叠矩阵，反应了阵列的混叠模式。对E中的元素进行可视化，如图3所示。

根据公式(5)可知，若想不发生空间混叠，则需要当(n′,m′)＝(n,m)时

其他情况

针对图3所示的阵列混叠矩阵图，E是

的矩阵，前(N+1)²×(N+1)²部分是个单位阵,若固定编码阶数为4，则当球面声压展开阶数小于5时满足上述要求，不发生空间混叠；若球面声压的编码阶数大于5，则得到的系数

就与理想的系数有一个由高阶成分带来的混叠误差e_nm，如公式(6)所示。

但是空间混叠并不是在所有情况下都污染全部的系数，如图3可知，当球面声压展开阶数为6，计算得到的系数只有第四阶偏离理想值，其他更低阶的系数都是正确的。也就是说当信号频率超过上截止频率，空间混叠误差最先污染高阶成分，随着频率增加，逐渐往低阶影响。

2.抗空间混叠HOA编码方法

当信号频率超过上截止频率时，并不是一开始就污染全部的阶数，而是随着频率增加，从高阶往低阶影响。于是一个比较直接的想法就是舍弃受污染的高阶成分，只使用比较低的阶数来编码，但存在空间分辨率低的问题。为了让高频在重构时也能有较大的听音区，就需要对编码得到的不受空间混叠影响的低阶信号进行处理。利用低阶HOA信号进行升阶到高阶的方法可以用于部分解决空间混叠问题。由于，在一定频率范围内，还有一些低阶成分没有受到空间混叠的影响，可以利用这些正确的成分来恢复出高阶成分，来达到在一定频率范围内消除空间混叠带来的影响。有较低阶N′的HOA信号，升阶算法如下所示：

B′_N′＝Y_N′s (7)

这里B′_N是带有混叠误差的N阶HOA信号，B′_N′代表对B′_N截断到N′阶(N>N′)。Y_N′是N′阶的球傅立叶变换矩阵。s＝[s₁,s₂,…,s_L]^T是虚拟扬声器信号，在空间中虚拟L个虚拟扬声器，B₀₀～B_NN是是修正后的HOA信号。T个角度均匀分布在一个球上(可以使用近似均匀分布得到)，如果N′阶的HOA信号要升阶到N，需满足L＞＞(N′+1)²和L＞＞(N+1)²的条件。

由公式(7)求解s，需要解一个欠定方程且解的个数时是无穷的，为了可以得到更理想的解，需要引入声源稀疏假设，假设在一个时频点声源是稀疏的，则可以用下式来约束方程的求解：

min(||s||₁)

||||_p表示p范数，ε是一个值很小的参数，为了避免平面波字典不能含括所有可能的声源方向。该方法存在一些弊端：一旦信号频率高到连一阶成分也含有较大混叠误差时，该方法失效。并且在可用阶数固定时，该方法的性能随着声源个数的增加而迅速变差，因为低阶成分只刻画了声场比较粗糙的部分，在某种情况下，多声源的低阶成分可能与单声源的低阶成分相吻合，但是稀疏性约束会选择更稀疏的解，而抛弃真实多声源的解。混叠矩阵刻画了各个成分之间的混叠关系，可以利用混叠矩阵的信息，可以使用更多阶成分的信息，以达对结果的优化。公式(8)变为：

min(||s||₁)

其中，B’_N为根据球麦克风阵列的信号进行HOA编码得到的N阶HOA信号，存在空间混叠误差。根据存在空间混叠误差的HOA信号恢复出不含空间混叠误差的HOA系数B_N。

与公式(8)不同的是(9)使用了N阶全部的信号，而公式(8)方法只适用了N’(N>N’)阶的信号。

不论是(8)还是(9)，对得到的较为准确的s后，可以通过公式(10)将s编码到N阶，获得N阶的HOA信号：

B_N＝Y_Ns (10)

其中，Y_N是N阶的球傅立叶变换矩阵。

3.空间解码

得到HOA信号后，将HOA信号乘以球傅立叶变换的逆矩阵，即根据矩阵求逆法重建声场，其基本原理是：当扬声器阵列所产生的叠加声场的球谐函数展开形式等价于原始声场的球谐函数展开形式时，扬声器阵列所重建的声场等价于原始声场。

[s₁,s₂,…,s_L]是扬声器信号，L为扬声器个数。根据矩阵求逆即可得到扬声器的信号，用于扬声器播放，也可再进行一步转换成双耳信号，用耳机进行播放。

将得到的每个扬声器信号与它相对应的头相关冲击响应(Head Related ImpulseResponse,HRIR)进行卷积,再叠加,便可得到双耳信号。

即可实现基于扬声器和基于耳机的3D音频系统。

本发明的优点

下面结合实际结果来说明本发明的优点。

抗空间混叠HOA编码是为了解决高频空间混叠问题，本发明使用半径5cm的刚性球和32个麦克风构成的球麦克风阵列作为空间音频的采集设备，对空间编码得到的HOA信号计算声源的空间指向，为了判断方法对所有频率的有效性，故对2kHz到10kHz进行了实验。

声源的空间指向图可以用下式计算得到：

b_N(Ω)＝y^TB_N， (9)

这里y＝{Y₀₀(Ω)，...，Y_NN(Ω)]^T，是各阶球谐函数在Ω方向所构成的向量，B_N是计算得到的HOA信号，从公式可以看出，当Ω的取值是水平面0到2π时，可以绘制水平面的一空间指向图。

图4是单声源下的实验结果，单位幅度的声源从水平面50度方向入射；图5是两个声源下的实验结果，两个单位幅度的声源，分别从水平面50度和水平面310度方向入射。从实验结果看，传统的HOA编码方法在频率高于5.4kHz时，严重受到空间混叠的影响，高频方向放生紊乱；本发明提出的方法有效的解决这一问题，在5.4kHz到10kHz都几乎没有受到空间混叠的影响。

尽管为说明目的公开了本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于最佳实施例和附图所公开的内容。

Claims

1.一种抗高频空间混叠的3D音频系统实现方法，其步骤包括：

2)根据步骤1)离散球傅里叶变换的展开系数

3)通过公式mn(||s||₁)、

求解得到信号s；其中，Y_N是N阶的球傅立叶变换矩阵，B’_N为根据球麦克风阵列的信号进行HOA编码得到的N阶HOA信号，ε是一设定值；

4)根据步骤3)得到的信号s，通过公式B_N＝Y_Ns将s编码到高阶N，获得高阶的HOA信号B_N；

2.如权利要求1所述的方法，其特征在于，球麦克风阵列采集的信号频率f满足

其中，c是声速，r为球麦克风阵列的半径。

3.如权利要求1或2所述的方法，其特征在于，截断阶数N<(M+1)²，M是球麦克风阵列中球面麦克风的个数。

4.如权利要求1所述的方法，其特征在于，空间混叠矩阵E为

的矩阵；其中的元素

为球面声压的球傅立叶展开阶数,Q是球面麦克风的数量，α_q是跟球面麦克风分布有关的参数，Y_n,m(θ_q,φ_q)是n阶m级球傅立叶变换矩阵，代表球谐函数在点(θ_q,φ_q)的值，Y_n’,m’(θ_q,φ_q)是n’阶m’级球傅立叶变换矩阵，代表球谐函数在点(θ_q,φ_q)的值，θ_q为球坐标系中q点的仰角,φ_q为球坐标系中q点的水平角。

5.如权利要求1所述的方法，其特征在于，将重建声场时得到的每个扬声器信号与对应扬声器的头相关冲击响应进行卷积再叠加，得到双耳信号，实现基于耳机的3D音频系统。

6.一种抗高频空间混叠的3D音频系统，其特征在于，包括高阶HOA信号生成模块和重建声场模块；其中，

求解得到信号s；其中，Y_N是N阶的球傅立叶变换矩阵，B’_N为根据球麦克风阵列的信号进行HOA编码得到的N阶HOA信号，ε是一设定值；然后通过公式B_N＝Y_Ns将s编码到高阶N，获得高阶的HOA信号B_N；

7.如权利要求6所述的3D音频系统，其特征在于，截断阶数N<(M+1)²，M是球麦克风阵列中球面麦克风的个数。

8.如权利要求6所述的3D音频系统，其特征在于，球麦克风阵列采集的信号频率f满足

其中，c是声速，r为球麦克风阵列的半径。