CN108279860B

CN108279860B - 一种提升虚拟现实临场音效体验的方法及系统

Info

Publication number: CN108279860B
Application number: CN201710448890.6A
Authority: CN
Inventors: 甄国文; 陈鹏
Original assignee: Shenzhen Jiachuang Video Technology Co ltd
Current assignee: Shenzhen Jiachuang Video Technology Co ltd
Priority date: 2017-06-14
Filing date: 2017-06-14
Publication date: 2021-05-14
Anticipated expiration: 2037-06-14
Also published as: CN108279860A

Abstract

本发明提出一种提升虚拟现实临场音效体验的方法，包括以下步骤：S1：获取声源的原始左右声道音频信号并解码；S2：对所述解码后的原始左右声道音频信号进行预处理；S3：实时检测用户的人头在水平方向上的偏移角度信息；S4：根据所述偏移角度信息，对所述预处理后的和原始的左右声道音频信号进行实时抽值/插值处理，得到两组时间偏移后的左右声道音频信号；S5：将所述两组时间偏移后的左右声道音频信号分别进行融合后输出。本发明的提升虚拟现实临场音效体验方法及系统，能够随着用户的头部转动，实时调整左声道和右声道的时间偏移和音量大小情况，极大地提升了用户观看虚拟现实视频的临场音效体验。

Description

一种提升虚拟现实临场音效体验的方法及系统

技术领域

本发明涉及信号处理领域，特别涉及一种提升虚拟现实临场音效体验的方法及系统。

背景技术

虚拟现实技术是一种可以创建和体验虚拟世界的计算机仿真系统，它利用计算机生成一种模拟环境，是一种多源信息融合的、交互式的三维动态视景和实体行为的系统仿真使用户沉浸到该环境中。

虚拟现实技术涉及音视频输出。在视频方面，视频画面视角会跟随着视角指令的控制而变化。目前主流的虚拟现实音视频播放器——手机和虚拟现实一体机，都是通过陀螺仪传感器获取方向信息，从而实时控制视频画面视角的输出。这两个播放器均需要通过佩戴虚拟现实眼镜使用。

虚拟现实领域的技术人员和虚拟现实技术使用者将会理解，佩戴虚拟现实眼镜观看到的场景是固定的，不会随着观看者转动头部、移动观看视角而变化。例如，虚拟现实场景中北边的一棵树，会一直在北边；当观看者面向北边时，这棵树就出现在观看者的前方；当观看者转动头部、将视角经过东边移向南边时，这棵树就逐渐消失在视野中，而东边和南边的场景则慢慢出现在视野中。

而目前的虚拟现实播放器，普遍采用左右声道，即双声道的音频设备采集音频信息，双声道的位置是固定的，在视角转动过程中均保持原来的输出，不做处理。例如，观看者佩戴虚拟现实眼镜、戴上左右耳机观看一个场景时，观看者面向主视角(默认视角)时，场景中观看者的左边有人在说话，此时左耳机输出说话人的声音，右耳机不输出或以小音量输出说话人的声音；当观看者慢慢将头转向左边，再转向后边观看后面场景过程中，观看者的左耳机始终在输出说话人的声音，右耳机始终不输出说话人的声音；特别是当观看者将头转向后面时，场景中说话人此时在观看者的右边，观看者右耳机应该输出说话人的声音，左耳机应该不输出或以小音量输出说话人的声音，而实际上，观看者的左耳机输出说话人的声音，右耳机不输出说话人的声音；这时听觉感受到的声源方向与视觉看到的声源方向相违背。这样使观看者观看虚拟现实视频的临场体验大打折扣。

发明内容

本发明的目的是为了解决现有技术中的虚拟现实播放器临场音效体验差的问题，提出一种提升虚拟现实临场音效体验的方法及系统。

本发明的提升虚拟现实临场音效体验的方法，包括以下步骤：S1：获取声源的原始左右声道音频信号，并对所述原始左右声道音频信号进行解码；S2：对所述解码后的原始左右声道音频信号进行预处理；S3：实时检测用户的人头在水平方向上的偏移角度信息；S4：根据所述偏移角度信息，对所述预处理后的左右声道音频信号和所述解码后的原始左右声道音频信号分别进行实时抽值/插值处理，得到两组时间偏移后的左右声道音频信号；S5：将所述两组时间偏移后的左右声道音频信号分别进行融合，形成新的左右声道音频信号并输出。

优选地，所述步骤S2中对所述解码后的原始左右声道音频信号进行预处理，是指分别对到达左耳声道的原始右声道音频和到达右耳声道的原始左声道音频进行插值预处理。所述插值预处理的插值数量N_o为：

N_o＝INT[f_s·W/v_声]

其中，W为两耳距离，f_s为原音频的采样频率，v_声为声音在空气中的传播速度。所述步骤S3中的所述偏移角度信息，是指用户的人头转动时相对于初始位置的水平偏移角度。

优选地，所述步骤S4中的对所述预处理后的左右声道音频信号和所述解码后的原始左右声道音频信号进行分别实时抽值/插值处理，包括两个方面，分别是：对于左耳声道，对所述预处理后的右声道音频和原始左声道音频分别进行实时抽/插值处理；对于右耳声道，对预处理后的左声道音频和原始右声道音频分别进行实时抽/插值处理，总抽值/插值数量N(θ)为：

N(θ)＝INT[f_s·W(1-cosθ)/2v_声]

其中，W为两耳距离，f_s为原音频的采样频率，v_声为声音在空气中的传播速度。

优选地，所述步骤S5中将所述两组时间偏移后的左右声道音频信号分别进行融合，是指对所述音频信号的音量值进行融合：

L″_n＝L′_ln·A(θ_n)+R′_ln·B(θ_n)

R″_n＝R′_rn·A(θ_n)+L′_rn·B(θ_n)

其中，L″_n为融合后左耳音频的音量值，R″_n为融合后右耳音频的音量值，L′_ln和R′_ln分别是对应于左耳声道的时间偏移后的左声道音频的音量值和右声道音频的音量值，R′_rn和L′_rn分别是对应于右耳声道的时间偏移后的右声道音频的音量值和左声道音频的音量值，参数θ_n为所述偏移角度信息，A(θ_n)和B(θ_n)均为关于参数θ_n的函数，并且存在依赖关系A(θ_n)+B(θ_n)＝1。优选地，所述A(θ_n)和B(θ_n)分别为：

本发明还提出一种提升虚拟现实临场音效体验的系统，包括：左右声道音频采集器，获取声源的原始左右声道音频信号并完成音频编码；解码器，对所述原始左右声道音频信号进行解码；运动传感器，实时检测用户的人头在水平方向上的偏移角度信息；时间偏移处理器，对所述解码后的原始左右声道音频信号进行预处理，和根据所述偏移角度信息，对所述预处理后的左右声道音频信号和所述解码后的原始左右声道音频信号分别进行实时抽值/插值处理，得到两组时间偏移后的左右声道音频信号；音频融合器，将所述两组时间偏移后的左右声道音频信号分别进行融合，形成新的左右声道音频信号并输出。

优选地，所述运动传感器包括加速度计、陀螺仪和/或者磁力传感器。

与现有技术相比，本发明的有益效果有：

本发明的提升虚拟现实临场音效体验的方法及系统，通过在播放器的音频解码输出路径上插入时间偏移处理器和音频融合器，能够随着观看者或者收听者的头部转动，实时调整左声道和右声道的时间偏移和音量大小情况，极大地提升了观看者观看虚拟现实视频的临场音效体验。

附图说明

图1是本发明提升虚拟现实临场音效体验的方法流程图。

图2是本发明一个实施例的应用场景示意图。

具体实施方式

下面结合具体实施方式并对照附图对本发明做进一步详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

观看者仅通过两个耳朵就能正确判断声源的方向，是因为声源到观看者两个耳朵之间的距离有差异，导致耳朵接收到同一声源发出声音的音量有差别，接收到同一声音的时间(相位)也有差别。也就是说，观看者两个耳朵接收到同一声源的声音是不一样的，不仅存在音量大小的区别，还存在时间先后的区别。因此，虚拟现实中需要对虚拟现实的音频从音量大小和时间偏移两个方面来进行处理，才能更好的提升观看者观看虚拟现实视频的临场体验。

本发明的提升虚拟现实临场音效体验的系统，包括：左右声道音频采集器，获取声源的原始左右声道音频信号并完成音频编码；解码器，对所述原始左右声道音频信号进行解码；运动传感器，实时检测用户的人头在水平方向上的偏移角度信息；时间偏移处理器，对所述解码后的原始左右声道音频信号进行预处理，并且根据所述偏移角度信息，对所述预处理后的左右声道音频信号和所述解码后的原始左右声道音频信号进行实时抽值/插值处理；音频融合器，对将所述时间偏移后的左右声道音频信号进行融合，形成新的左右声道音频信号并输出。

可以理解的是，在录制音虚拟现实音视频资料时，左右声道音频采集器采集的是声源的原始左右声道音频信号，并且其位置是固定的，不会随着观看者或收听者人头的转动而变换位置，当观看者佩戴虚拟现实眼镜、戴上左右耳机时，左右耳机输出的音频信息分别是左耳声道音频信息和右耳声道音频信息，其是通过本发明对原始左右声道音频信号处理后的音频信息，其能够随着观看者或者收听者的头部转动，实时调整左声道和右声道音频信息的时间偏移和音量大小情况，极大地提升了观看者观看虚拟现实视频的临场音效体验。

本发明通过在播放器的音频解码输出路径上插入时间偏移处理器和音频融合器，具体的音频处理流程如图1所示，首先将原始左右声道音频解码，得到解码后的原始左声道音频L和原始右声道音频R。时间偏移处理器将解码后的左右声道音频各取一个分支，该分支分别是到达左耳声道的原始右声道音频R、和到达右耳声道的原始左声道音频L，时间偏移处理器首先对这两个分支音频进行固有插值预处理。预处理的原因是，即使观察者或收听者的人头没有转动，但是原始右声道音频需要经过一个人头宽度才能到达左耳，原始左声道音频要需要经过一个人头宽度才能到达右耳，因此，需要首先对到达左耳声道的原始右声道音频R、以及到达右耳声道的原始左声道音频L进行固有插值预处理，分别得到预处理后的右声道音频R’和预处理后的左声道音频L’。

然后时间偏移处理器实时获取陀螺仪的水平角度偏移信息(此处的水平角度偏移信息是指观看者或者收听者的人头转动时相对于初始位置的水平偏移角度θ，简称人头转动角度θ)，并根据水平角度偏移信息，实时调整声源到达左右耳朵的时间变化，具体的，对于左耳声道而言，时间偏移处理器根据实时获取的人头转动角度θ，对预处理后的右声道音频R’和原始左声道音频L分别进行实时抽/插值处理，得到时间偏移后的右声道音频R_l’(θ)和时间偏移后的左声道音频L_l’(θ)；对于右耳声道而言，时间偏移处理器根据实时获取的人头转动角度θ，对预处理后的左声道音频L’和原始右声道音频R分别进行实时抽/插值处理，得到时间偏移后的右声道音频R_r’(θ)和时间偏移后的左声道音频L_r’(θ)。

然后对于左耳声道而言，音频融合器将时间偏移后的右声道音频R_l’(θ)和时间偏移后的左声道音频L_l’(θ)融合，形成融合后的左耳声道音频L”；对于右耳声道而言，音频融合器再将时间偏移后的右声道音频R_r’(θ)和时间偏移后的左声道音频L_r’(θ)融合，形成融合后的右耳声道音频R”，最后通过数模转换输出或者进入其他处理流程，以达到提高观看者临场体验的效果。

时间偏移处理器的工作过程及工作原理详细描述如下：

解码器将音频解码，输出左右声道的音频值。输出的左右声道音频值分别按一定的排列顺序被缓存成两个音频序列。在这两个音频序列中，排在前面的音频值首先被输出。

假设声源的初始位置在收听者人头的左边或右边，收听者听到声音后，将头转向声源的方向，在转向的过程中，左耳或右耳逐渐远离声源，右耳或左耳逐渐靠近声源，时间偏移处理器将在人头转向过程中对预处理后的和原始的左右声道音频序列进行插值或抽值处理。

以下对将要用到的变量做如下定义：W为两耳距离，优选值0.16m；v_声为声音在空气中的传播速度，优选值340m/s；f_s为原音频的采样频率，由左右声道音频采集器的采样率决定，记录在音频文件中，可直接读取；θ为观看者或者收听者的人头水平转动时相对于初始位置的水平偏移角度，简称人头转动角度θ，该角度由陀螺仪提供，被时间偏移处理器和音频融合器实时获取。在此需要说明的是，实时获取人头转动角度θ可以有多种方法，可以采用单一的传感器，即采用单一的加速度计、陀螺仪或者磁力传感器，也可以采用上述传感器的组合。在本实施例中，通过陀螺仪实时获取人头转动角度θ，在其他实施例中，可以采用多种传感器的组合，形成运动传感器套件，更加精确地采集观看者或者收听者的人头转动角度θ。

假设声源的初始位置在收听者人头的左边或右边，当在初始位置(θ＝0°)时，原右声道音频需要经过两耳距离W才能到达左耳，原左声道音频需要经过两耳距离W才能到达右耳。因此，当在初始位置(θ＝0°)时，需要首先对送至左耳的原始右声道音频和送至右耳的原始左声道音频进行插值预处理，插值数量N_o为：

N_o＝INT[f_s·W/v_声] 公式(1)

根据公式(1)可获得经过预处理后的右声道音频R’和预处理后的左声道音频L’。

当人头转动角度为θ时，左耳或右耳在原左右方向上与声源的距离变化量为

Δd＝W(1-cosθ)/2 公式(2)

声音因人头转动导致到达左耳或右耳的时间变化量为

Δt＝W(1-cosθ)/2v_声公式(3)

则左耳或右耳的总抽值/插值数量

N(θ)＝INT[f_s·W(1-cosθ)/2v_声] 公式(4)

其中N为整数。

时间偏移处理器实时获取陀螺仪的水平偏移角度θ，并通过公式(2)、(3)和(4)计算总抽值/插值数量N(θ)。总抽值/插值数量N(θ)随人头转动角度θ的变化而变化，并且当人头转动角度θ变化一定大小时，总抽值/插值数量N(θ)才会有整数变化。

例如，当两耳距离W为0.16m，采样频率f_s为0.1MHz，声音在空气中的传播速度v_声为340m/s时，插值预处理的插值数量N_o为47次。当水平偏移角度θ小于16.8°时，则通过公式(3)计算得出总抽值/插值数量N小于1次，即当收听者的人头转动角度θ小于16.76°时，总抽值/插值数量N(θ)为0次；当水平偏移角度θ大于16.8°而小于23.8°时，则通过公式(3)计算得出总抽值/插值数量N大于1次而小于2次，即当收听者的人头转动角度θ大于16.8°而小于23.8°时，总抽值/插值数量N(θ)为1次；当水平偏移角度θ为30°时，则通过公式(3)计算得出总抽值/插值数量N为3次，即当收听者的人头转动角度θ为30°时，总抽值/插值数量N(θ)为3次；当收听者的人头转动角度θ为45°时，通过公式(3)计算得出总抽值/插值数量N为6次；当收听者的人头转动角度θ为60°时，通过公式(3)计算得出总抽值/插值数量N(θ)为11次；当收听者的人头转动角度θ为90°时，通过公式(3)计算得出总抽值/插值数量N(θ)为23次。

当算出的总抽值/插值数量N(θ)有变化时，则进行抽值/插值操作，抽出或插入的音频值的个数为N(θ)的变化量ΔN。当计算出的总抽值/插值数量N(θ)无变化(ΔN＝0)时，则不进行抽值/插值操作。抽值和插值操作是在音频序列中从第1个音频值开始，每隔m个音频值抽出一个或者插入一个音频值。

假设声源的初始位置在收听者人头的左边，收听者听到声音后，将头转向声源的方向，在转向的过程中，在人头转动角度0°＜θ＜180°的范围内，总抽值/插值数量N(θ)值变大，变大量为ΔN，左耳逐渐远离声源，右耳逐渐靠近声源。对于左耳声道而言，时间偏移处理器根据实时获取的人头转动角度θ，对预处理后的右声道音频R’进行实时抽值处理，对原始左声道音频L进行实时插值处理；对于右耳声道而言，时间偏移处理器根据实时获取的人头转动角度θ，对预处理后的左声道音频L’进行实时抽值处理，对原始右声道音频R进行实时插值处理；同理，若总抽值/插值数量N(θ)变小，变小量为ΔN，时间偏移处理器根据实时获取的人头转动角度θ，需要对左声道或右声道的音频进行相反操作。抽值操作后将会缩短音频序列的输出时间，将听到声音的时间提前，插值操作后将会延迟音频序列的输出时间，将听到声音的时间延后。下面先详细描述时间偏移处理器对左声道或右声道的音频序列进行抽值操作的几种情况：

如果当前左声道或右声道的音频序列为原音频序列(即无插入过任何额外值和无抽取过任何值)，则将音频序列的第m个值(从音频序列的第1个值开始数)抽出来，然后再将音频序列的第2m个值抽出来，以此类推，直到将音频序列的第ΔN个值抽出来为止。

如果检测到当前左声道或右声道的音频序列已抽取过数值时，则在当前已抽值的序列后继续间隔抽出数值。假设当前序列中最后被抽出的数值是第K个，则继续将第(K+m)、(K+2m)......(K+ΔN·m)个值抽出。

如果检测到当前左声道或右声道的音频序列已插入过数值时，则按数量要求将被插入的数值从最后插入的数值开始，依次将插入的数值抽出。当插入数值全部被抽出，但仍需继续进行抽值的话，则从第1个值开始，依次将第m、2m、3m……个数值抽去，一直达到需要抽出的数值数量为止。

然后再详细描述时间偏移处理器对右声道或左声道的音频序列进行插值操作的几种情况：

如果当前右声道或左声道的音频序列为原音频序列(即无插入过任何额外值和无抽取过任何值)，则在音频序列的第m和(m+1)个值之间插入一个音频值，然后再在第2m和(2m+1)个值之间插入一个音频值，以此类推，直到在音频序列的第(ΔN·m)和(ΔN·m+1)个值之间插入最后一个音频值为止。

如果检测到当前右声道或左声道的音频序列已插入过数值时，则在当前已插值的序列后继续间隔插入数值。假设当前序列中最后被插入的数值是第k、(k+1)个数值之间，则继续在第(k+m)和(k+m+1)之间、(k+2m)和(k+2m+1)之间……(K+ΔN·m)和(k+ΔN·m+1)之间插入ΔN个数值。

如果检测到当前右声道或左声道的音频序列已抽出过数值时，则按数量要求将被抽出的数值从最后抽出的数值开始，依次将抽出的数值插回原位。当抽出的数值全部被插回原位，但仍需要继续进行插值的话，则依次在第m和(m+1)个值之间、第2m和(2m+1)个值之间……插入数值，一直达到需要插入的数值数量为止。

m的优选值可根据音频采样率f_s、播放器的主时钟频率和结合实际调试效果来确定。在这里需要说明的是，目前的音频采样率一般为22.05KHz、44.1KHz、48KHz，即使采用采样率较高的SACD，其采样率为2.822MHz，相对于当前音视频播放器所基于的CPU上万DMIPS的处理性能而言，速率相对较慢。音视频播放器在均匀播出两个相邻音频值时，时间偏移处理器有足够的时间完成水平偏移角度的获取、抽/插值运算及相应的抽/插值操作。因此，虽然音频序列是随时间动态变化的，但在时间偏移处理模块进行抽/插值运算及相应的抽/插值操作期间，可认为当前需要处理的音频序列是静止的。

在一个实施例中，如图2所示，图中1号箭头指示的是观看者佩戴虚拟眼睛观看到的虚拟现实场景，2号箭头指示的是虚拟现实场景中的声源位置。初始位置时，收听者的人头朝向正北方，声源处于收听者的正左方，根据公式(1)，假设两耳距离W为0.16m，采样频率f_s为0.1MHz，声音在空气中的传播速度v_声为340m/s时，则在初始位置时插值预处理的插值数量N_o为47次。若左耳和右耳的音频信号被解码后含有的音频值数量为500个，m取值为3，对于左耳声道而言，需要对到达左耳声道的原始右声道音频R插入47个值，依次在第3个与第4个、第6个与第7个、……、第141个与第142个音频值之间插入音频值，得到预处理后的右声道音频R’；对于右耳声道而言，需要对到达右耳声道的原始左声道音频L插入47个值，依次在第3个与第4个、第6个与第7个、……、第141个与第142个音频值之间插入音频值，得到预处理后的左声道音频L’。

当人头转动角度θ为0°，根据公式(4)得出总抽值/插值数量N₁(θ)为0次；当收听者的人头朝向声源的方向转动，转动角度θ为30°时，总抽值/插值数量N₂(θ)为3次，在转动过程中，左耳逐渐远离声源，右耳逐渐靠近声源，总抽值/插值数量N(θ)变大了，ΔN＝N₂(θ)-N₁(θ)＝3次，对于左耳声道而言，时间偏移处理器根据实时获取的人头转动角度θ，对预处理后的右声道音频R’抽取3个值，即从最后插入的值开始依次将插入的3个值抽出，对原始左声道音频L进行实时插值处理，依次在第3个与第4个、第6个与第7个、第9个与第10个音频值之间共插入3个音频值；对于右耳声道而言，时间偏移处理器根据实时获取的人头转动角度θ，对预处理后的左声道音频L’抽取3个值，即从最后插入的值开始依次将插入的3个值抽出，对原始右声道音频R进行实时插值处理，依次在第3个与第4个、第6个与第7个、第9个与第10个音频值之间共插入3个音频值。

在另一个实施例中，声源的初始位置在收听者人头的右边，收听者听到声音后，将头转向声源的方向，在转向的过程中，右耳逐渐远离声源，左耳逐渐靠近声源，时间偏移处理器将在人头转向过程中，对预处理后的左右声道音频序列和原始左右声道音频序列进行插值或抽值处理。在转向的过程中，在人头转动角度0°＜θ＜180°的范围内，总抽值/插值数量N(θ)值变大，变大量为ΔN，右耳逐渐远离声源，左耳逐渐靠近声源，对于左耳声道而言，时间偏移处理器根据实时获取的人头转动角度θ，对预处理后的右声道音频R’进行实时抽值处理，对原始左声道音频L进行实时插值处理；对于右耳声道而言，时间偏移处理器根据实时获取的人头转动角度θ，对预处理后的左声道音频L’进行实时抽值处理，对原始右声道音频R进行实时插值处理；同理，若总抽值/插值数量N(θ)变小，变小量为ΔN，时间偏移处理器根据实时获取的人头转动角度θ，需要对左声道或右声道的音频进行相反操作。

经过时间偏移处理器处理后的左右声道音频序列，一同送至音频融合器进行融合处理。

音频融合器详细描述如下：

音频融合器，对将上述时间偏移后的左右声道音频信号的音量值进行融合，形成新的左右声道音频信号并输出。在(t₀，t₁，t₂......t_n-1，t_n，t_n+1......)时刻，获取的人头转动角度分别为(θ₀，θ₁，θ₂......θ_n-1，θ_n，θ_n+1......)，此时对于左耳声道而言，对应时间偏移处理器输出的左、右声道音频的音量值分别为(L′_l0，L′_l1，L′_l2......L′_l(n-1)，L′_ln，L′_l(n+1)......)和(R′_l0，R′_l1，R′_l2......R′_l(n-1)，R′_ln，R′_l(n+1)......)；对于右耳声道而言，对应时间偏移处理器输出的左、右声道音频的音量值分别为(L′_r0，L′_r1，L′_r2......L′_r(n-1)，L′_rn，L′_r(n+1)......)和(R′_r0，R′_r1，R′_r2......R′_r(n-1)，R′_rn，R′_r(n+1)......)。经过融合模块融合运算后输出的左、右耳声道音频的音量值分别为(L″₀，L″₁，L″₂......L″_n-1，L″_n，L″_n+1......)、(R″₀，R″₁，R″₂......R″_n-1，R″_n，R″_n+1......)。跟原始左、右声道音频的音量值(L₀，L₁，L₂......L_n-1，L_n，L_n+1......)、(R₀，R₁，R₂......R_n-1，R_n，R_n+1......)一起，(L_n，R_n，L′_ln，R′_ln，L′_rn，R′_rn，L″_n，R″_n)为同一时刻的音量值，左、右耳声道音频的音量值(L″_n，R″_n)将与视频画面同步输出。

对于左耳声道而言，将经时间偏移处理器时间偏移后的左声道音频的音频值L′_ln和时间偏移后的右声道音频的音量值R′_ln经过以下公式(5)的融合运算，得到融合后的左耳声道音频的音量值L″_n；对于右耳声道而言，将经时间偏移处理器时间偏移后的左声道音频的音频值L′_rn和时间偏移后的右声道音频的音量值R′_rn经过以下公式(6)的融合运算，得到融合后的右耳声道音频的音量值R″_n；：

L″_n＝L′_ln·A(θ_n)+R′_ln·B(θ_n) 公式(5)

R″_n＝R′_rn·A(θ_n)+L′_rn·B(θ_n) 公式(6)

其中，A(θ_n)和B(θ_n)均为关于参数θ_n的函数，并且存在依赖关系A(θ_n)+B(θ_n)＝1。

优选的，A(θ_n)和B(θ_n)为以下函数

此时，θ_n取0°、30°、90°、180°四个值为例，来说明L″_n和R″_n是如何随水平偏移角θ_n变化的。

当人头转动角度θ_n＝0°(视频画面正视主视角)时，cosθ_n＝1，

L″_n＝L′_ln＝L_n

R″_n＝R′_rn＝R_n

此时，左耳声道输出的是经时间偏移处理器处理后的左声道音频的音量值L′_rn，右耳声道输出的是经时间偏移处理器处理后的右声道音频的音量值R′_rn。由于此时人头转动角度θ_n＝0°，人头并没有转动，则根据公式(4)计算出的总抽值/插值数量N(θ)无变化(ΔN＝0)时，不进行抽值/插值操作，即此时，左耳声道输出的是原始左声道音频的音量值L_n，右耳声道输出的是原始右声道音频的音量值R_n。

当视频水平视角转动θ_n＝30°时，cosθ_n＝0.866，

L″_n＝0.933L′_ln+0.067R′_ln

R″_n＝0.933R′_rn+0.067L′_rn

此时，左耳声道输出的是大部分经时间偏移处理器处理后的左声道音频的音量值L′_ln和小部分经时间偏移处理器处理后的右声道音频的音量值R′_ln混合后的音频音量值，右耳声道输出的是大部分经时间偏移处理器处理后的右声道音频的音量值R′_rn和小部分经时间偏移处理器处理后的左声道音频的音量值L′_rn混合后的音频音量值。

当视频水平视角转动θ_n＝90°(视频画面转到主视角正左方或正右方)时，coaθ_n＝0，

L″_n＝0.5L′_ln+0.5R′_ln

R″_n＝0.5R′_rn+0.5L′_rn

此时，左耳声道输出的是一半经时间偏移处理器处理后的左声道音频的音量值L′_ln和一半经时间偏移处理器处理后的右声道音频的音量值R′_ln混合后的音频音量值，右耳声道输出的是一半经时间偏移处理器处理后的右声道音频的音量值R′_rn和一半经时间偏移处理器处理后的左声道音频的音量值L′_rn混合后的音频音量值。

当视频水平视角转动θ_n＝180°(视频画面背对主视角)时，cosθ_n＝-1，

L″_n＝R′_ln＝R_n

R″_n＝L′_rn＝L_n

此时，左耳声道输出的是经时间偏移处理器处理后的右声道音频的音量值R′_ln，右耳声道输出的是经时间偏移处理器处理后的左声道音频的音量值L′_rn，由于此时人头转动角度θ_n＝180°，由公式(4)和公式(1)得出N(θ)＝N_o，对于左耳声道而言，时间偏移处理器根据实时获取的人头转动角度θ，对预处理后的右声道音频R_l’进行实时抽值处理，抽取的音频值数量等于预处理时插入的音频值数量，因此，左耳声道输出的是原始右声道的音频的音量值R_n；同理，右耳声道输出的是原始左声道的音频的音量值L_n，即左右声道的音频反过来输出。

由此可见，我们佩戴虚拟现实眼镜观看虚拟现实视频，当我们从主视角慢慢向左边转时，左耳声道输出的融合音频中，经时间偏移处理器处理后的左声道的音量会逐渐减小、经时间偏移处理器处理后的右声道的音量会逐渐增大；右耳声道输出的融合音频中，经时间偏移处理器处理后的右声道的音量会逐渐减小、经时间偏移处理器处理后的左声道的音量会逐渐增大。当我们转180°面向背后时，左耳声道输出原始右声道的音频，右耳声道输出原始左声道的音频。如此，左耳和右耳声道输出的音频信息，能够随着观看者或者收听者的头部转动，实时调整时间偏移和音量大小，极大地提升了观看者观看虚拟现实视频的临场音效体验。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种提升虚拟现实临场音效体验的方法，其特征在于，包括以下步骤：

S1：获取声源的原始左右声道音频信号，并对所述原始左右声道音频信号进行解码；

S2：对所述解码后的原始左右声道音频信号进行预处理；

S3：实时检测用户的人头在水平方向上的偏移角度信息；

S4：根据所述偏移角度信息，对所述预处理后的左右声道音频信号和所述解码后的原始左右声道音频信号分别进行实时抽值/插值处理，得到两组时间偏移后的左右声道音频信号；

S5：将所述两组时间偏移后的左右声道音频信号分别进行融合，形成新的左右声道音频信号并输出；

所述步骤S5中将所述两组时间偏移后的左右声道音频信号分别进行融合，是指对所述音频信号的音量值进行融合：

L″_n＝L′_ln·A(θ_n)+R′_ln·B(θ_n)

R″_n＝R′_rn·A(θ_n)+L′_rn·B(θ_n)

其中，L″_n为融合后左耳音频的音量值，R″_n为融合后右耳音频的音量值，L′_ln和R′_ln分别是对应于左耳声道的时间偏移后的左声道音频的音量值和右声道音频的音量值，R′_rn和L′_rn分别是对应于右耳声道的时间偏移后的右声道音频的音量值和左声道音频的音量值，参数θ_n为所述偏移角度信息，A(θ_n)和B(θ_n)均为关于参数θ_n的函数，并且存在依赖关系A(θ_n)+B(θ_n)＝1；

所述A(θ_n)和B(θ_n)分别为：

2.根据权利要求1所述的提升虚拟现实临场音效体验的方法，其特征在于，所述步骤S2中对所述解码后的原始左右声道音频信号进行预处理，是指分别对到达左耳声道的原始右声道音频和到达右耳声道的原始左声道音频进行插值预处理。

3.根据权利要求2所述的提升虚拟现实临场音效体验的方法，其特征在于，所述插值预处理的插值数量N_o为：

N_o＝INT[f_s·W/v_声]

4.根据权利要求1所述的提升虚拟现实临场音效体验的方法，其特征在于，所述步骤S3中的所述偏移角度信息，是指用户的人头转动时相对于初始位置的水平偏移角度。

5.根据权利要求1所述的提升虚拟现实临场音效体验的方法，其特征在于，所述步骤S4中的对所述预处理后的左右声道音频信号和所述解码后的原始左右声道音频信号分别进行实时抽值/插值处理，包括两个方面，分别是：对于左耳声道，对所述预处理后的右声道音频和原始左声道音频分别进行实时抽/插值处理；对于右耳声道，对预处理后的左声道音频和原始右声道音频分别进行实时抽/插值处理。

6.根据权利要求1所述的提升虚拟现实临场音效体验的方法，其特征在于，所述步骤S4中的对所述预处理后的左右声道音频信号和所述解码后的原始左右声道音频信号分别进行实时抽值/插值处理，总抽值/插值数量N(θ)为：

N(θ)＝INT[f_s·W(1-cosθ)/2v_声]

7.一种提升虚拟现实临场音效体验的系统，其特征在于，包括：

左右声道音频采集器，获取声源的原始左右声道音频信号并完成音频编码；

解码器，对所述原始左右声道音频信号进行解码；

运动传感器，实时检测用户的人头在水平方向上的偏移角度信息；

时间偏移处理器，对所述解码后的原始左右声道音频信号进行预处理，并且根据所述偏移角度信息，对所述预处理后的左右声道音频信号和所述解码后的原始左右声道音频信号分别进行实时抽值/插值处理，得到两组时间偏移后的左右声道音频信号；

音频融合器，将所述两组时间偏移后的左右声道音频信号分别进行融合，形成新的左右声道音频信号并输出；

将所述两组时间偏移后的左右声道音频信号分别进行融合，是指对所述音频信号的音量值进行融合：

L″_n＝L′_ln·A(θ_n)+R′_ln·B(θ_n)

R″_n＝R′_rn·A(θ_n)+L′_rn·B(θ_n)

所述A(θ_n)和B(θ_n)分别为：

8.根据权利要求7所述的提升虚拟现实临场音效体验的系统，所述运动传感器包括加速度计、陀螺仪和/或磁力传感器。