CN117979223A

CN117979223A - 一种针对增强现实的动态双耳音频渲染方法

Info

Publication number: CN117979223A
Application number: CN202410243402.8A
Authority: CN
Inventors: 张雯; 凡亚珂; 夏嘉维
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2024-03-04
Filing date: 2024-03-04
Publication date: 2024-05-03

Abstract

本发明涉及声学技术领域，具体涉及一种针对增强现实的动态双耳音频渲染方法，该方法包括：获取移动的单通道麦克风信号以及固定位置的多通道麦克风信号，重建出单麦克风位置的高阶声场信号；根据定位系统提供的位置信息确定听者坐标位置，基于听者坐标位置，确定坐标位置的高阶声场信号；将对应的高阶声场信号与单/多声源信号进行卷积，得到球阵信号；将所述球阵信号与头相关传递函数分别进行球谐表示，结合定位器提供的头转信息，在球谐域进行处理，得到双耳信号，并通过耳机播放。即本发明的方案能够提高空间声场的动态双耳渲染效果。

Description

一种针对增强现实的动态双耳音频渲染方法

技术领域

本发明一般地涉及声学技术领域。更具体地，本发明涉及一种针对增强现实的动态双耳音频渲染方法。

背景技术

近年来，随着交互式设备和音频技术的发展，在增强现实（AR，Augmentedreality）与虚拟现实（VR，Virtual reality）场景中实现逼真的听觉体验十分重要。

其中，房间脉冲响应（RIR，Room Impulse Response）反应了房间内的声学信息，Ambisonics格式则是作为一种三维环绕声场格式被广泛应用于空间声场的表示与重构技术。因此，在动态双耳渲染时，其主要包括两部分，第一部分是多通道房间脉冲响应（RIR，Room Impulse Response）的重建，第二部分是基于Ambisonics进行双耳渲染。

其中，对于第一部分，其主要针对房间信息和声源、测量点位置信息均未知的情况下，只能测量房间内多点的RIR，目前主要有三种方法进行多通道RIR的插值，分别如下：

1）基于单点麦克风数据的声场参数化分析与合成

对于该方法，当插值的是一阶立体混响（FOA，first order ambisonic）信号时，通常是基于DirAC编码，每个时频点的FOA信号由直达波和扩散两部分组成，其中声强矢量与声源方向（DOA，Direction of Arrival）相关，基于平移定理随听者位置动态调整，混响部分保持不变。

当插值的是高阶双声波（HOA，Higher Order Ambisonic）信号时，目前主要有如下的两种方法：a.将给定测量位置的HOA信号表示为（多个镜像源）直达波和混响分量，基于HOA信号的空间协方差矩阵以及主特征向量分析确定声源个数、定位以及直达波信号的提取，然后基于听者位置和姿态，更新直达波分量，混响部分则保持不变。这种方法需要声源距离信息作为先验信息。b.将给定测量位置的HOA信号表示为平面波和球面波的混合模式，即声源由近场和远场混合虚拟源表示，且假设声源空间分布是稀疏的。其中，近场声源用小半径（2m）的等效虚拟源分布来模拟，远场用大半径（20m）的平面波声源来模拟。在球谐域进行六自由度（6DoF，Six Degrees of Freedom）渲染，无需声源距离等先验信息，但需要听者在近场等效源半径范围内移动。

2）基于多点麦克风数据的声场插值

对多个均匀球阵录制的Ambisonics信号进行线性插值时，以距离为权重，逐渐减小远距离麦克风对插值的影响，同时对不同阶数的球谐信号重调整，保证最近的麦克风对插值信号的影响最大，且使用与距离相关的低通滤波器模拟高频声音的自然衰减。

然而，当直接对Ambisonics信号进行距离加权线性插值时，由于可能存在的问题，从而可能会产生类似梳状滤波的问题，从而影响听感、降低声场定位的准确性。因此，在插值时需要去掉更靠近声源的麦克风；具体为：首先使用多个球阵的DOA定位结果，基于三角定理定位声源距离，将距离听者位置小于距离声源的麦克风选为有效麦克风，然后对P个麦克风数据基于距离定义权重W，基于球谐域平移矩阵M表示不同区域的声场，最后基于正则化最小二乘进行插值声场。

3）基于多点麦克风数据的声场参数化分析与合成

对于该方法，主要是基于参数化方法将声场建模为直达波和晚期混响，一种是针对各时频点的声场，一种是针对录制的Ambisonics信号。

对于各时频点的声场，基于DirAC编码，将各时频点声场建模为直达波和晚期混响，然后在插值点重构。具体为：

首先，进行声源DOA估计：在每个测量点基于SRP定位声源DOA，基于三角定位法则对多个测量点的定位结果进行匹配分析；

其次，估计直达波和混响分量：基于时频点CDR估计每个高阶麦克风的直达波分量和混响分量；

然后，进行声场插值：基于外部声场球谐分解和声源位置插值直达波分量，基于距离加权插值混响幅度分量，相位部分为最近测量点的测量数据。

对于录制的Ambisonics信号，基于多点球谐域中的房间脉冲响应（ARIR，Ambisonic Room Impulse Responses）进行插值，根据检测出ARIR中的直达波和晚期混响，进行RIR的插值。其基本思想是以距离为权重（1/r）的线性插值，根据声源、测量位置和插值位置的相对距离调整直达波/早期反射的时间和幅值。

具体地，对于单个ARIR：

首先，由于大多数实测的ARIR是一阶的，因此基于一阶ARIR进行参数估计，当然这也同样适用于高阶声场信号（简称为高阶ARIR或者HOA RIRs）。根据ARIR的全向和一阶分量估计直达波的到达时间（TOA,Time of Arrival）和DOA，并检测其峰值。

可通过伪强度向量的平均幅值检测直达波的TOA，即

其中，没有带宽限制，/>表示超过0.5ms的哈明窗移动平均滤波器。

超过预定义阈值的的每个最大值被定义为峰值的到达时间，阈值的选择取决于房间的混响。根据Ambisonic空间分解方法（ASDM，Ambisonic spatial decompositionmethod)，由有限带宽的一阶ARIR的平滑伪强度向量/>估计对应于该峰值TOA的DOA，即

其中，是一阶ARIR的零阶全向ARIR通道，/>分别是指向X, Y和Z的一阶ARIR通道。下标/>表示200 Hz到3 kHz之间的零相位带通滤波，/>是长度为0.25ms的零相位平均滤波器。

其次，根据所有ARIR中的时间差（TDOA，Time Difference of Arrival）和TOA来定位直达声，基于三个相邻的ARIR峰值匹配定位早期反射。

由于优先级效应，直达声在感知方向这一方面通常占主导地位，因此为了确保直达声（即声源位置）定位的准确性，这里根据多个ARIR的直达声峰值间的TDOAs进行直达声定位。这可以通过使用线性修正最小二乘（linear correction least-squares，LCLS）估计量通过约束优化最小化式(1-13)中的二维球面LS代价函数来实现。

其中，是第i个ARIR直达声的DOA，t是其直达声对应的TOA，/>，为第i个ARIR的测量位置。

通过最小化角度误差函数(1-14)来选择唯一的直达声（即声源位置），即

在匹配早期反射时，假设位置变动较小时对听感影响很小，基于三个相邻ARIR的TDOA就可以实现较为精确的定位。使用球面交点（spherical intersection，SX）估计器作为基于TDOA的峰值定位器，由于SX估计器最初是为三维接收器阵列和设计的，因此对于三元组，其形式应用于纯水平接收器，即

则其LS误差函数为，

令其LS误差函数为0，得到对应峰值的估计位置。

然后，对插值点相邻的三个ARIR进行峰值匹配，并将匹配峰值周围的ARIR片段外推到插值点。峰值匹配的目的是在相邻ARIR三元组中找到早期反射对应的峰值。根据迭代峰值匹配算法，该算法总是以ARIR三元组中的最大未匹配峰作为参考峰，用表示这个参考峰TOA，用/>表示相应的ARIR位置，根据与/>的TDOAs，将其余两个次要ARIR B,C中对应峰值的TOA/>限定在最大传播时间差窗口内，即

依次迭代，直到匹配完较为主要的峰值。

对于检测出的早期反射峰值，在三元组的每个匹配峰附近切割等长ARIR片段，将每个段定义为在峰值TOA之前开始16个样本，峰值结束后至少16个样本，但限制在总段长度在3ms以下，从而可保留ARIR峰值段中的时间、方向和幅值信息。

为了在ARIR段之间平滑过渡，每个段的边界通过16个样本长度的半窗口重叠进行平滑。然后将每个ARIR的峰值外推到插值点处，

其中，

其中，是外推的ARIR段，/>表示定位的早期反射对应的镜像源位置，/>表示插值点位置。

对于多点ARIR的插值：

首先，将外推到插值点的三个ARIR匹配的峰值和早期反射残余部分分别进行以距离为权重的线性插值，然后，对于不能定位的混响部分，例如t>100ms的部分仅取自距离插值点最近的ARIR。

对于同一水平面，线性的插值的权重的计算公式为，

其中，是第i个测量点位置，/>，为插值点位置，r为相邻ARIR的网格间距，G是一个常数，以保证/>。

因此，插值点位置处的ARIR段为：

其中，表示相应的第i个ARIR段。

上述方法中，虽然通过对多点ARIR插值或单点ARIR外推，基本可以实现多通道RIR的插值任务，但是上述方案仍然存在一些问题：

1）计算复杂度较高，对于使用Eigenmike录制的4阶ARIR，很难实现实时的生成和后续的实时渲染。

2）混响不够准确，在该方法中，混响部分通常取自最近的ARIR的混响部分，与实际混响部分的波形区别较为明显。

同时，对于第二部分的基于Ambisonics的双耳渲染方法，现有技术中通常使用高阶球形麦克风阵列录制声场，拾取声场的空间信息，引入与人体声学特性相关的数据——头相关传递函数（HRTF，Head-Related Transfer Function），将二者在球谐域展开，在球谐域使用旋转因子对HRTF旋转，进行基于场景的动态渲染；具体如下：

首先，声场与HRTF球谐分解的矩阵表达式如下：

其中，表示麦克风表面的声压，/>为其球谐分解系数，Y为球谐基函数。

其次，通过对测量数据进行最小二乘拟合，基于球谐函数伪逆求解声场球谐分解系数，即

其中是矩阵/>的伪逆，在此基础上使用径向滤波器/>去除球阵表面的散射体影响，得：

其中，对于开球，

对于刚性球（如Eigenmike），

其中，是球贝塞尔函数，/>是n阶第二类球汉克尔函数，/>为波数，/>为球面半径，/>为/>阶球贝塞尔函数的一阶导数，/>为n阶第二类球汉克尔函数的一阶导数，i为虚数单位。

头相关传递函数与头相关脉冲响应（HRIR，Head-related Impulse Response）均用于描述人体外耳、头部和躯干对声波的影响。其中HRTF定义为自由场情况下从声源到双耳的频域传输函数，与空间中声场的球谐分解类似，其球谐分解系数求解如下，

其中，是HRTFs，/>表示球谐分解系数。

假设声场由远场球面上连续分布的声源产生，左右耳接收到的信号为，

使用声场与HRTFs的球谐分解系数，进行球谐域的双耳渲染，利用球谐函数的正交完备性得到左右耳接收到的信号，

在基于场景的双耳渲染算法中，对于听者头部旋转的情景可以看做是头相关传递函数HRTFs进行球谐域的旋转。此时只考虑听者水平面上的头部转动角度，则旋转因子表示如下：

由此可得，基于Ambisonics方法3自由度（3DOF，Three Degrees of Freedom）动态场景下的双耳渲染结果：

需要说明的是，基于Ambisonics方法对声场与HRTFs进行球谐分解，得到与声源方向无关的球谐系数，从而不需要对声场进行预先分析，即可计算得到双耳信号，使用旋转因子对HRTF在球谐域进行旋转，即可进行动态场景下的双耳渲染。

但是，在进行双耳渲染时，上述的Ambisonics的方法仍存在一些问题，具体如下：

1）球形麦克风阵列Eigenmike受到阵列半径与阵元数量限制，其录制声场的空间阶数远小于HRTF采样的空间阶数；高空间分辨率的HRTF数据需要与低空间分辨率的球阵数据匹配，高阶HRTF被截断到低阶Ambisonics表示，造成渲染结果音色失真，定位精度的下降，高频幅度衰减等问题。

2）仿真高阶球阵信号会提升声场的空间分辨率，但是声场与HRTF的高阶表示会占用更大的内存空间，同时需要更大的运算量。

发明内容

为解决上述一个或多个技术问题，本发明提出了一种针对增强现实的动态双耳音频渲染方法，用于解决在进行双耳渲染时，渲染效果较差以及渲染时占用资源大的问题。

一种针对增强现实的动态双耳音频渲染方法，包括以下步骤：

获取移动的单通道麦克风信号以及固定位置的多通道麦克风信号，重建出单通道麦克风位置的高阶声场信号；

根据定位系统提供的位置信息确定听者坐标位置，基于听者坐标位置，确定坐标位置的高阶声场信号；将对应的高阶声场信号与单/多声源信号进行卷积，得到球阵信号；

将所述球阵信号与头相关传递函数分别进行球谐表示，结合定位器提供的头转信息，在球谐域进行处理，得到双耳信号，并通过耳机播放。

可选地，所述双耳信号为：

其中，，/>分别是HRTF与球形麦克风阵列信号基于Ambisonics表示的球谐系数，/>为用户的旋转因子，n表示球谐阶数，m表示球谐级数，/>为共轭运算符，/>为径向滤波器，L为左耳，R为右耳，m’和m分别表示不同的球谐级数，/>分别对应绕不同的轴旋转的欧拉角。

可选地，所述重建出单通道麦克风位置的高阶声场信号的具体过程为：

确定声源位置；

利用镜像源法以及所述声源位置、固定位置和插值点位置的关系，得到早期反射TOA、DOA和幅度，实现未测量的区域高阶ARIR的直达声和早期反射的重建；采用预先构建的条件对抗网络，生成未测量的区域高阶ARIR晚期混响；

基于重建的直达声、早期反射以及晚期混响，确定重建的高阶声场信号。

可选地，所述采用预先构建的条件对抗网络，生成ARIR晚期混响的具体过程为：

构建条件对抗网络；

获取数据集，采用数据集对构建的条件对抗网络进行训练，得到训练好的条件对抗网络；

将当前移动的单通道麦克风信号的晚期混响输入训练好的条件对抗网络，生成当前移动的单通道麦克风的ARIR的晚期混响。

可选地，所述训练数据集包括公开数据集中的单通道RIR的晚期混响数据集及其对应的实测ARIR的晚期混响数据集构成训练数据集以及当前实测的单通道RIR的晚期混响以及对应实测的ARIR的晚期混响构成测试数据集。

可选地，所述条件对抗网络包括生成器和判断器；生成器和判断器均包括输入层、卷积层和输出层。

可选地，还包括获取早期残差分量的步骤；所述早期残差分量选取的是固定测量点实测的ARIR的早期残差分量；将外推的直达声和早期反射、早期残差分量和晚期混响结合在一起，得到的重建的高阶声场信号。

可选地，所述基于听者坐标位置，确定坐标位置的高阶声场信号的过程为：

对听者所在的目标区域进行网格划分，对划分的每个网络进行标记，确定每个网格的坐标位置；

利用定位系统确定听者的坐标位置；

基于听者的坐标位置，确定听者的坐标位置对应的高阶声场信号；其中，每个网格的坐标位置均对应一个高阶声场信号。

本发明的有益效果为：

本发明主要涉及针对移动用户位置处ARIRs的晚期混响插值以及动态实时渲染；即本发明的方案提出了结合辅助单麦克风位置处实测的单通道RIR信息，外推出ARIRs的晚期混响，重建出更为准确的ARIR，从而实现更精准更鲁棒的声场重建，并且大大降低了实测ARIR的工作量。同时，在大屏或扬声器的播放过程中，实时感知所处房间的声学环境，产生任意虚拟源位置到移动终端的声学冲激响应，进而将远端语音、声信号真实自然地叠加到本地的三维音频重放系统中以进行播放。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1为球阵麦克风阵列Eigenmike示意图；

图2为全向麦克风示意图；

图3示意性示出了HTC定位系统示意图；

图4示意性示出了系统应用场景图；

图5示意性示出了本实施例中的动态双耳音频渲染系统的结构框图；

图6示意性示出了本实施例中的一种针对增强现实的动态双耳音频渲染方法的步骤流程图；

图7示意性示出了本实施例中的固定点，外推点/>和声源/>位置的平面图；

图8示意性示出了示意性示出了基于CGAN的ARIR晚期混响估计算法的网络架构图；

图9声场采集（实测RIR）时房间网格化示例图；

图10a示意性示出了对距离声源0.5m采用实测ARIR晚期混响、基于单麦克风测量辅助的ARIR插值算法生成的ARIR晚期混响以及基于CGAN的ARIR晚期混响估计算法的三种估算方法的得到的三种零阶ARIR晚期混响的波形曲线图；

图10b示意性示出了对距离声源1.5m实测ARIR晚期混响、基于单麦克风测量辅助的ARIR插值算法生成的ARIR晚期混响以及基于CGAN的ARIR晚期混响估计算法的三种估算方法的得到的三种零阶ARIR晚期混响的波形曲线图；

图10c示意性示出了对距离声源2.5m采用实测ARIR晚期混响、基于单麦克风测量辅助的ARIR插值算法生成的ARIR晚期混响以及基于CGAN的ARIR晚期混响估计算法的三种估算方法的得到的三种零阶ARIR晚期混响的波形曲线图；

图11a示意性示出了对距离声源0.5m采用实测ARIR晚期混响、基于单麦克风测量辅助的ARIR插值算法生成的ARIR晚期混响以及基于CGAN的ARIR晚期混响估计算法的三种估算方法的得到的三种零阶ARIR的EDC的曲线图；

图11b示意性示出了对距离声源1.5m采用实测ARIR晚期混响、基于单麦克风测量辅助的ARIR插值算法生成的ARIR晚期混响以及基于CGAN的ARIR晚期混响估计算法的三种估算方法的得到的三种零阶ARIR的EDC的曲线图；

图11c示意性示出了对距离声源2.5m采用实测ARIR晚期混响、基于单麦克风测量辅助的ARIR插值算法生成的ARIR晚期混响以及基于CGAN的ARIR晚期混响估计算法的三种估算方法的得到的三种零阶ARIR的EDC的曲线图；

图12a示意性示出了对距离声源0.5m采用基于单麦克风测量辅助的ARIR插值算法生成的ARIR晚期混响以及基于CGAN的ARIR晚期混响估计算法的两种估算方法的得到的各阶ARIR的NMSE的曲线图；

图12b示意性示出了对距离声源1.5m采用基于单麦克风测量辅助的ARIR插值算法生成的ARIR晚期混响以及基于CGAN的ARIR晚期混响估计算法的两种估算方法的得到的各阶ARIR的NMSE的曲线图；

图12c示意性示出了对距离声源2.5m采用基于单麦克风测量辅助的ARIR插值算法生成的ARIR晚期混响以及基于CGAN的ARIR晚期混响估计算法的两种估算方法的得到的各阶ARIR的NMSE的曲线图；

图13a示意性示出了对距离声源0.5m采用基于单麦克风测量辅助的ARIR插值算法生成的ARIR晚期混响以及基于CGAN的ARIR晚期混响估计算法的两种估算方法的得到的零阶ARIR幅度谱的归一化均方误差（NMSE）曲线图；

图13b示意性示出了对距离声源1.5m采用基于单麦克风测量辅助的ARIR插值算法生成的ARIR晚期混响以及基于CGAN的ARIR晚期混响估计算法的两种估算方法的得到的零阶ARIR幅度谱的归一化均方误差（NMSE）曲线图；

图13c示意性示出了对距离声源2.5m采用基于单麦克风测量辅助的ARIR插值算法生成的ARIR晚期混响以及基于CGAN的ARIR晚期混响估计算法的两种估算方法的得到的零阶ARIR幅度谱的归一化均方误差（NMSE）曲线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图来详细描述本发明的具体实施方式。

现有技术中的动态双耳音频渲染，在进行ARIR插值时，对RIR的晚期混响部分关注较少，存在晚期混响估计不准确的问题；同时，在进行动态渲染时，仅考虑头部平动情况，即将处于不同声源位置的高阶球阵信号作为输入，在6DOF(6自由度)场景下对听者平移运动的渲染，其并未考虑头部俯仰角的变化，存在渲染较差的问题。

基于上述问题，本发明提供了种针对增强现实的动态双耳音频渲染方法，通过插值点处单道RIR晚期混响作为条件，以对应位置的ARIR作为真实样本，使用CGAN网络学习不同阶ARIR晚期混响的衰减特性，得到RIR晚期混响，并结合直达声和早期反射，合成插值点处的ARIR，并得到球阵信号，在后续渲染时结合头部跟踪，计算旋转因子，索引对应声源对应位置的房间脉冲响应，构成支持用户平移运动的6DoF双耳渲染系统，相较于3DoF系统，声像定位准确性进一步提升。

本发明的应用场景可以为会议或者个人娱乐系统，如家庭影院等。具体地，以远端开会演示场景为例，对本发明的一种针对增强现实的动态双耳音频渲染方法进行具体介绍。

其中，本实施例中的远端开会的房间内不同位置布设有多个扬声器，和固定位置设置的球形麦克风阵列系统Eigenmike，其中，其中，多个扬声器用于播放不同内容的声源，即该多个声源可以是固定的，也可以是移动的；球形麦克风阵列系统Eigenmike共有32通道麦克风（见图1），用于测量高阶声场信号；房间内包括移动的全向麦克风（即单通道麦克风）（见图2）以及HTC定位系统（见图3），其中，移动的全向麦克风和HTC定位系统可构成可穿戴设备，设置在听者身上，听者可以在房间内自由移动，以实现动态双耳音频的渲染，以双声道耳机作为播放端，进行双耳信号的播放。示例性的，本实施例中选取以配有HTC定位系统与单通道麦克风的VR头显。基于上述组成结构，本实施例的系统场景，如图4所示，包括声源、球形麦克风阵列系统Eigenmike以及佩戴有HTC定位系统与单通道麦克风、耳机的VR头显的听者。

基于上述系统场景，本发明的动态双耳音频渲染系统包括声场处理模块和动态双耳渲染模块，如图5所示。其中的声场处理模块，通过采用球形麦克风阵列系统Eigenmike以及单通道麦克风获取目标区域内的声场信号，并重建出高阶声场信号。

动态双耳渲染模块，包括球阵信号转换模块和双耳渲染模块；其中，球阵信号转换模块用于对重建的高阶声场信号进行信号转换，得到球阵信号，并将球阵信号作为双耳渲染模块的输入，进行双耳渲染。

其中，双耳渲染模块根据球阵信号、预先获取的头相关传递函数、旋转因子，确定双耳信号，并进行播放。

具体地，如图6所示，对本实施例中的一种针对增强现实的动态双耳音频渲染方法，包括以下步骤：

在步骤S1处，获取移动的单通道麦克风信号以及固定位置的多通道麦克风信号，重建出单通道麦克风位置的高阶声场信号（简称为高阶ARIR或HOA RIRs）。

由于现有技术在进行ARIR插值时，对RIR的晚期混响部分关注较少，存在晚期混响估计不准确的问题。因此，本实施例中，采用移动的单通道麦克风得到单通道声源信号，采用在目标区域内的固定位置设置的球形麦克风阵列系统Eigenmike对不同房间不同位置的多种空间声源的多通道声源信号进行采集，从而得到固定位置的多通道麦克风信号。

如图1所示，Eigenmike共有32通道麦克风，可进行4阶声场的采集，用于测量目标区域内的采样网格点上的房间脉冲响应，或直接拾取空间声场。

其中，扬声器播放频率范围为20~20kHz的扫频信号，采用单通道麦克风和Eigenmike对空间声场进行采集。扫频信号时长设置为3s，静默1s。为了减小误差，同一个点录制2~3次。

为减小误差，同一个网格点录制2~3次。通过录制信号与扫频信号解卷积求解RIRs，将多次测量的RIRs取平均值，从而得到高阶声场信号数据。

需要说明的是，由于使用Eigenmike录制信息时会出现播放和录制不同步的问题，在使用录制信号和原始扫频信号解卷积获得ARIR时，需要先通过同步脉冲信号确定录制音频中信号开始的时间，再进行解卷积。

进一步地，为了平滑听者在平移运动时索引对应ARIR的渲染效果，进行基于实测单通道RIR的ARIR重建。对于已知目标区域内的单通道麦克风位置的高阶声场信号的重建，主要分两种情况，一种是声源位置已知的情况，一种是声源位置未知的情况。

当声源位置未知时，本实施例中重建出单通道麦克风位置的高阶声场信号的具体过程为：

首先，确定声源位置。本实施例中利用固定点实测ARIR的一阶分量，基于伪强度矢量（PIV）估计声源的DOA，从而可以确定声源相对固定点的方位角和仰角；接下来，通过将固定点ARIR的零点全向分量与外推点实测的单通道RIR/>相结合，基于TDOA和固定点的位置可以确定声源在房间中的具体位置。

其次，利用镜像源法以及所述声源位置、固定测量位置和插值点位置的关系，得到早期反射TOA、DOA和幅度，实现未测量的区域ARIR的直达声和早期反射的重建；采用预先构建的条件对抗网络，生成未测量的区域ARIR晚期混响。

本实施例中的直达声和早期反射的外推，如图7所示，具体如下：首先，使用峰值检测方法，确定较为显著的早期反射。然后，已知声源位置、房间几何信息、固定点和外推点位置，根据镜像源法（ISM）确定较为显著的早期反射对应的镜像源的位置，从而确定其TOA和幅度信息。最后，根据外推点和固定点与声源之间的距离差异，调整对应早期反射峰值的TOA，并结合一维距离衰减定律/>调整其幅度，总体来说，外推的ARIR的相应的早期反射的时间段为，

其中，表示外推到目标位置/>的ARIR瞬时时间段，/>用于调整幅度，表示TOA差异，计算公式分别为，

/>

其中，表示声速，一般为343m/s。

针对本实施例中的晚期混响的外推，本实施例中是采用预先构建的条件对抗网络（CGAN），在给定条件下可准确地生成ARIR晚期混响，具体如下：

构建条件对抗网络。本实施例中的条件对抗网络（CGAN）由一个生成器网络和一个判别器网络/>组成，其中生成器和判断器均包括输入层、卷积层和输出层。

获取数据集，采用数据集对构建的条件对抗网络进行训练，得到训练好的条件对抗网络。

本实施例获取的数据集是通过对网上搜集的公开数据集以及本发明中实验室实测的数据集进行处理获取的。其中公开数据集包括METU SPARG数据集、TAU-SRIRDB数据集和6DOF-SRIR数据集。本发明实验室实测的数据集为在目标区域内的五个固定位置处使用Eigenmike和全向麦克风分别测量得到的。

上述的处理方法是对数据集中的单通道RIR晚期混响进行提取，即通过混合时间（Mixing Time）来确定的，混合时间之后的RIR即为晚期混响；而目前公开的数据集中RIR的采样率通常为48kHz，而网络输入的采样率为16kHz的单通道RIR的晚期混响，因此需要将公开数据集中的RIR进行降采样至16kHz，这样固定长度的RIR可以持续更长的时间。

其中公开数据集中的单通道RIR的晚期混响及其对应的实测ARIR的晚期混响的数据集构成的4440组训练数据集。本发明实验室实测的单通道RIR的晚期混响以及对应实测的ARIR的晚期混响构成的60组数据集测试数据集。需要说明的是，实验室实测数据是全空间的，包含200多组。受到计算能力的限制，为了使得RIR持续更长时间，这里采用采样率为16kHz的采样率。

示例性的，如图9所示，距离网格0.5m处有一声源，网格上的黑点代表Eigenmike实测点，网格上的圆圈为实测点，Eigenmike和全向麦克风的实测点是全空间的，图中网格是0.4m的间隔，实际测量是0.2m的间隔，黑点是横向和纵向的示例。本发明实测的数据集为使用Eigenmike测量的ARIR和全向麦克风测量得到的单通道RIR。

本实施例中采用训练数据集（公开数据集中的真实数据分布的/>）对生成器网络/>、判别器网络/>进行迭代交替训练。

通过训练生成器网络学习噪声向量样本/>从/>分布到/>分布的映射。对生成器进行优化，使其产生的样本难以与真实数样本/>难以被判别器/>区分，对判别器/>进行优化，使其能将由/>生成的样本和真实样本区分开来。

生成器网络判别器网络/>通过优化以下二值最小最大博弈的值函数/>进行训练，

。

本实施例中的具体训练的过程为：

需要说明的是，在训练CGAN网络之前，还需要对单通道RIR的晚期混响进行处理得到输入量，即将单通道RIR的晚期混响生成嵌入向量（Embedding），并将嵌入向量/>归一化来进行标准化设置，将嵌入向量/>作为构建的CGAN网络的输入量。/>

其中，嵌入向量（Embedding）为：

式中，是一个长度为4096点的一维向量，表示外推点处单通道RIR的晚期混响。

其中，在进行训练时，将嵌入向量作为构建的CGAN网络的输入，将对应的实测ARIR的晚期混响作为训练网络的真实样本（作为网络的输出量）进行对抗条件网络的训练。

需要说明的是，在训练过程中，采用RMSprop优化器迭代训练和/>，由于所使用服务器计算资源的限制，这里批处理大小（Batch Size）设置为16，学习率为/>，对于每40个Epoch (Epoch代表着在一个完整的训练数据集中完成一轮训练过程的次数)，学习率将降低0.7倍。

其中，本实施例中CGAN网络的损失函数包括生成器损失函数和判断器损失函数，具体如下：

对于生成器损失函数，为了学习各阶ARIR晚期混响的衰减特性，这里CGAN网络中生成器的目标函数包含修改后的CGAN误差、均方误差（Mean Square Error，MSE）和能量衰减曲线（Energy Decay Curve，EDC）误差。

其中，修改后的CGAN误差：

生成器使用以下修改后的CGAN误差进行训练，以生成判别器/>难以真实样本区分的数据。

。

均方误差（MSE）：

将生成器生成的每个样本/>与对应的真实样本/>进行比较，以计算其均方误差，

。

EDC误差：

根据能量衰减曲线（Energy Decay Curve，EDC）的计算公式，分别计算使用生成器生成的样本和对应的真实样本/>，并将其进行比较，如下所示，

。

因此，生成器损失函数可以写作，

，

其中，和/>分别是均方误差和EDC误差的权重，用于控制均方误差和EDC误差的相对重要性。

对于判别器损失函数，判别器使用修改后的CGAN损失函数进行训练，即，

。

根据这些损失函数交替训练生成器网络和判别器网络/>，以最小化生成器的目标函数/>，并最大化判别器的目标函数/>。/>

需要说明的是，为了生成更真实的晚期混响，本实施例在训练过程中，使用的是在混响环境中实测的RIR和ARIR。这些实测RIR是通过在真实环境中录制声音并使用特定设备进行采集获得的。与使用仿真的RIR相比，使用实测RIR可以更好地模拟真实世界中的声学环境和混响效果。

进一步地，由于网络将声学环境中已知的RIR混响信息作为输入，并生成一个以一维原始波形音频输出的ARIR晚期混响。与图像不同的是，原始波形音频具有周期性，因此在处理音频中的低频信号时，需要具有更大感受野（Receptive Field）的滤波器。为了改进原始的和/>中的感受野，我们通过增加卷积核的大小和步长原始的/>和/>也进行了改进。例如，将3×3的2D卷积变为长度为4×1的1D卷积，将2×2的步长变为4×1的步长。此外，我们还使用转置卷积层替换了上采样层和后续的卷积层。

然后，基于重建的直达声、早期反射以及晚期混响，确定移动的单通道麦克风的高阶声场信号。本实施例中通过插值点处单道RIR晚期混响作为条件，以对应位置的ARIR作为真实样本，使用CGAN网络学习不同阶ARIR晚期混响的衰减特性，得到RIR晚期混响，并结合直达声和早期反射，合成插值点处的ARIR。

由于直达声、早期反射以及晚期混响的合成为现有技术，此处不再过多赘述。

进一步地，本实施例中，在确定外高阶声场信号之前，还包括获取早起残差分量的步骤；其中所述残差分量选取的是固定测量点实测的ARIR的早期残差分量，具体是对于不具有明确DOA信息的ARIR残差部分；其中，ARIR的早期残差分量可以直接使用固定点实测的ARIR早期残差分量；并将外推的直达声和早期反射、早期残差分量和晚期混响结合在一起，得到的插值点处ARIR。

需要说明的是，本实施例中重建出单麦克风位置的高阶声场信号即为插值的ARIR。本实施例中，结合基于Ambisonic的双耳渲染方法，使用结合外推点的实测单通道RIR的ARIR外推算法对未测量的区域进行重建，得到对应的高阶声场信号，并将重建的ARIR和实测的单通道RIR进行保存，即本实施例的方案能够事先获取目标区域内的每个未测量区域对应的高阶声场信号，以构成未测量区域位置与高阶声场信号的一一对应关系，便于后续在进行6DoF渲染时直接通过位置索引到对应ARIR，无需实时测量，降低了后续渲染时的占用资源、存储量的问题。

需要说明的是，本实施例中的未测量区域可以通过对目标区域进行网格划分，得到每个网格，并建立网格坐标位置与高阶声场信号的对应关系。其中网格的划分可以如0.4m×0.4m或者0.2m×0.2m。

在另一个实施例中，当声源位置已知时，其一般是先根据镜像源法（ISM）可确定其主要的镜像源位置、该镜像源到测量点的传播距离以及到测量点的入射方向（DOA），从而可得测量点处的RIR与该镜像源对应的反射的到达时间（TOA）和到达方向（DOA）。然后，根据测量点位置、声源位置和插值点位置之间的三角关系，可得到插值点处对应早期反射的TOA、DOA和幅度，从而可实现ARIR的直达声和早期反射的重建，对于晚期混响部分，利用外推点处实测的单通道RIR的晚期混响得到该点ARIR的晚期混响。

在步骤S2处，根据定位系统提供的位置信息确定听者坐标位置，基于听者坐标位置，确定坐标位置的高阶声场信号；将对应的高阶声场信号与单/多声源信号进行卷积，得到球阵信号。

本实施例中，先对听者所在的目标区域进行网格划分，以得到目标区域的网格，并对划分的每个网络进行标记，确定每个网格的坐标位置。示例性的，将房间地面进行网格划分，例如0.4m×0.4m或者0.2m×0.2m。然后，按顺序为网格点标注序号，与RIR的保存序号一致，便于后续渲染时调用。之后，利用定位系统确定听者的坐标位置；基于听者的坐标位置，确定听者坐标位置对应的高阶声场信号；其中，每个网格的坐标位置均对应一个高阶声场信号。

具体地，本实施例中将独立的多通道信号映射到球阵表面，以获取球阵信号；具体为：单通道信号或多通道信号输入系统时，HTC定位系统读取的位置坐标根据采样网格转换为坐标索引，根据用户所在坐标索引，引用对应的球阵RIRs数据，进行卷积，对多个声源进行叠加，将声源信号转换为对应坐标上的球阵信号，此时的球阵信号包含房间声学信息。

本实施例中是通过听者佩戴的HTC定位系统进行听者坐标位置的确定其中，HTC定位系统由两个灯塔，一个接收器，一个追踪器组成，设备读取的位置坐标根据采样网格转换为坐标索引，用于生成对应位置的球阵信号；角度信息调整到对应的球坐标上，用于听者头部转动时的6DoF双耳渲染。

作为其他实施方式，由于听着佩戴有移动的全向麦克风，因此球阵信号的获取可以是直接根据单通道麦克风信号进行录制得到的，即直接录制移动的全向麦克风的单通道声源信号，得到球阵信号。

在步骤S3处，将球阵信号与头相关传递函数分别进行球谐表示，结合定位器提供的头转信息，在球谐域进行处理，得到双耳信号，并通过耳机播放。

本实施例中，将所述高阶声场信号转换为对应的球阵信号；将所述球阵信号以及头相关传递函数，进行三维空间声场重构的双耳渲染，得到双耳渲染信号，并利用耳机进行回放。

具体地，将获取的球阵信号和HRTF分别进行基球谐表示，得到球谐系数。并将HTC提供的角度信息用于对HRTF的球谐域信号进行3DOF旋转，得到双耳信号。

本实施例中的，结合高阶声场信号以及头相关传递函数HRTF（Head-relatedTransfer Function）进行基于Ambisonics的双耳渲染；该方法通过将转换的球阵信号以及HRTF进行基于Ambisonics的方法表示，如下：

对于球阵信号进行基于Ambisonics的双耳渲染，静态场景下生成的双耳信号为：

其中，n表示球谐阶数，m表示级数，为共轭运算符，/>为径向滤波器，，/>分别为头部相关传递函数和球形麦克风阵列信号基于Ambisonics表示的球谐系数，L为左耳，R为右耳。

进而，6DoF动态场景下，听者的旋转因子wignerD矩阵表示如下：

/>

其中，，

其中，为wigner-D函数，n表示球谐阶数，m’和m分别表示不同的球谐级数，分别对应绕不同的轴旋转的欧拉角。

此时，生成的双耳信号为：

其中，，/>分别是头相关传递函数HRTF与球形麦克风阵列信号基于Ambisonics表示的球谐系数。

HTC提供的角度信息用于旋转因子的计算，对HRTFs的球谐域信号进行3DoF旋转，听者在头部转动时，可以体验到声场的变化。

本发明的动态双耳音频渲染方法是基于实测与插值的ARIRs渲染出移动用户两耳处的声信号。在动态实时渲染的情况下，结合头部跟踪，计算旋转因子，索引对应声源对应位置的房间脉冲响应，构成支持用户平移运动的6DoF（在空间内左右、前后、上下的移动，以及头部旋转的三个自由度）双耳渲染系统，相较于3DoF系统，声像定位准确性进一步提升。此外，利用在辅助单麦克风插值的ARIR提高外推ARIR精度，实现未测量位置处ARIR的重建，解决用户平移运动时，系统索引不连续造成的渲染效果突变问题。

为了验证本发明的动态双耳音频渲染方法，本发明进行了实验验证，具体如下：

以三人远端开会演示场景为例，房间内设置不同位置的三个扬声器，其用于播放三种不同内容的音源，其中一听者头戴HTC定位系统和耳机在房间内漫游，进行平移运动与旋转，感受6DOF场景下的声场变化。系统中使用的球阵房间脉冲响应为实际测量与插值的各声源，各网格点的球阵RIRs。用户可以通过耳机和扬声器重放系统的切换，比较6DOF场景下虚拟与现实的声场。

下面通过使用实测ARIR数据集进行外推，对其外推结果进行主客观评价，并将评价结果作为本发明实例的技术效果：

（1）客观评价结果

对于发明中提出的基于C GAN的ARIR晚期混响估计算法，由于生成结果是ARIR的晚期混响，为了评估其性能，将本算法与基于单麦克风测量辅助的ARIR插值算法生成的ARIR晚期混响以及对应的实测ARIR晚期混响进行客观对比，并分析结果。

由于计算机计算能力的限制，基于CGAN的ARIR晚期混响估计算法的生成结果是采样率为16kHz，长度为4096点的ARIR晚期混响。因此，将原采样率为48kHz的使用基于单麦克风测量辅助的ARIR插值算法生成的ARIR晚期混响和实测ARIR晚期混响降采样为16kHz，并以对应的混合时间（Mixing Time）为分界取4096点长度的晚期混响，使用零阶ARIR的波形、能量衰减曲线（EDC）、时域信号和幅度谱的归一化均方误差（NMSE）为评价指标来验证该算法的有效性。

对于基于CGAN的ARIR晚期混响估计算法，这里将在实验室中测得的其中64组RIR数据作为测试数据集，以生成不同位置的ARIR晚期混响。同样地，由于高阶ARIR的通道数较多，其中四阶ARIR包含有25个通道的信号。

因此，本实施例中只以零阶ARIR晚期混响为例，比较其波形、能量衰减曲线（EDC）和幅度谱的归一化均方误差（NMSE）。

下面以距离声源0.5m、1.5m和2.5m处的结果为例，以零阶ARIR晚期混响的波形、能量衰减曲线（EDC）和幅度谱的归一化均方误差（NMSE）与各阶ARIR晚期混响的NMSE为评价指标，其比较结果如图10a~图13c所示。

为了更清晰地说明该算法与基于单麦克风测量辅助的ARIR插值算法生成的ARIR晚期混响在归一化均方误差（NMSE）方面的差异，本实施例中还计算了时域的各阶ARIR晚期混响的平均NMSE，结果如表1所示。

表1 三种距离下，ARIR晚期混响的平均NMSE（单位：dB）

本实施例中根据图10a~图13c和表1中的对比结果可以看出：

（1）与基于单麦克风测量辅助的ARIR插值算法相比，该算法生成的ARIR晚期混响在波形上与实测ARIR的晚期混响更为接近，其能量衰减趋势也与实测ARIR更为一致。

（2）根据图中的各阶ARIR的NMSE和表1中的平均NMSE，可以看出该算法在NMSE上具有明显的改善，且三种不同距离下的平均NMSE均有3dB左右的提升。

（3）由图中零阶ARIR晚期混响的幅度谱的NMSE可知，与基于单麦克风测量辅助的ARIR插值算法相比，该算法在小于4.8kHz的频率范围内均有提升，大于4.8kHz的高频处仍有不足，未来可以从频率角度对该算法加以改进。

通过对这些结果进行综合分析可知，本发明所提出的ARIR晚期混响估计算法的生成结果在精度上是有较大提升的，后续可以与使用参数化方法估计的ARIR早期部分相结合，可以生成更为准确的ARIR，具有广阔的应用前景。

虽然本说明书已经示出和描述了本发明的多个实施例，但对于本领域技术人员显而易见的是，这样的实施例只是以示例的方式提供的。本领域技术人员会在不偏离本发明思想和精神的情况下想到许多更改、改变和替代的方式。应当理解的是在实践本发明的过程中，可以采用对本文所描述的本发明实施例的各种替代方案。

Claims

1.一种针对增强现实的动态双耳音频渲染方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种针对增强现实的动态双耳音频渲染方法，其特征在于，所述双耳信号为：

3.根据权利要求1所述的一种针对增强现实的动态双耳音频渲染方法，其特征在于，所述重建出单通道麦克风位置的高阶声场信号的具体过程为：

确定声源位置；

利用镜像源法以及所述声源位置、固定位置和插值点位置的关系，得到早期反射TOA、DOA和幅度，实现未测量的区域ARIR的直达声和早期反射的重建；采用预先构建的条件对抗网络，生成未测量的区域ARIR晚期混响；

4.根据权利要求3所述的一种针对增强现实的动态双耳音频渲染方法，其特征在于，所述采用预先构建的条件对抗网络，生成ARIR晚期混响的具体过程为：

构建条件对抗网络；

5.根据权利要求4所述的一种针对增强现实的动态双耳音频渲染方法，其特征在于，所述训练数据集包括公开数据集中的单通道RIR的晚期混响数据集及其对应的实测ARIR的晚期混响数据集构成训练数据集以及当前实测的单通道RIR的晚期混响以及对应实测的ARIR的晚期混响构成测试数据集。

6.根据权利要求4所述的一种针对增强现实的动态双耳音频渲染方法，其特征在于，所述条件对抗网络包括生成器和判断器；生成器和判断器均包括输入层、卷积层和输出层。

7.根据权利要求4所述的一种针对增强现实的动态双耳音频渲染方法，其特征在于，还包括获取早期残差分量的步骤；

所述早期残差分量选取的是固定测量点实测的ARIR的早期残差分量；将外推的直达声和早期反射、早期残差分量和晚期混响结合在一起，得到的重建的高阶声场信号。

8.根据权利要求1所述的一种针对增强现实的动态双耳音频渲染方法，其特征在于，所述基于听者坐标位置，确定坐标位置的高阶声场信号的过程为：

利用定位系统确定听者的坐标位置；