CN116723229A

CN116723229A - 一种身临其境的远程音频传输系统及方法

Info

Publication number: CN116723229A
Application number: CN202310453357.4A
Authority: CN
Inventors: 孟濬; 张航; 傅幼萍
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-09-08

Abstract

本发明公开了一种身临其境的远程音频传输系统及方法，通过音频采集模块采集现场音频，通过用户单元模块获得用户选择的现场位置信息，通过远程通讯模块传递给活动现场单元，通过音频处理模块对采集到的音频按照左右声道分别进行调幅与调相，并且将处理好的音频发送给信息处理模块，并且通过远程通讯模块再发送给用户单元模块，用户单元模块将从音频处理模块收到的音频按左右声道分别通过耳机发送给用户，音频存储模块存储音频处理模块处理完成的音频以备录播使用。本发明能够使得用户足不出户感受现场音频，并且能够达到身临其境的效果，使用者选取不同位置可以获取不同的听感，使得线上参与各种盛大活动的用户体验感得到极大提升。

Description

一种身临其境的远程音频传输系统及方法

技术领域

本发明属于音频传输领域，尤其涉及一种身临其境的远程音频传输系统及方法。

背景技术

随着互联网技术的发展，大型活动转变为线上举行的情况屡见不鲜，目前一般的远程音频传输系统往往仅仅对活动内容进行可靠地传输，而忽视了观众能否有一种切身的参与实感这一问题。这使得观众对活动的参与感大大降低，也让热爱者对活动的热情逐渐消退；另一方面，目前的线上活动，其仅仅对现场的全部声音不加选择地传输给用户，不能很好地过滤现场的噪音与干扰，也大大降低了用户的可选择性与主观能动性，即便某些声音引起了用户的反感，用户也只能被迫接受。尤其是对于现实中的很多音乐会，若开在线上观众难以像线下那样身临其境地欣赏音乐，并且用户可能仅仅对某些乐器的声音感兴趣，对其他的一些乐器并不感兴趣。因而亟待一种远程音频传输系统，使得观众能够身临其境地参与各种线上活动，并且能够按照观众自身意愿随时调整座位、屏蔽反感的声源。

发明内容

本发明目的在于针对现有技术的不足，提出了一种身临其境的远程音频传输系统及方法。

本发明的目的是通过以下技术方案来实现的：第一方面，本发明提供了一种身临其境的远程音频传输系统，该系统包括音频存储模块、音频采集模块、用户单元模块、远程通讯模块和音频处理模块；

所述音频采集模块用于采集现场活动所有设定声源的音频；

所述用户单元模块用于为使用者提供现场位置选择服务，并接受经过处理的现场音频通过耳机传递给用户；

所述远程通讯模块用于传输用户的位置选择以及个性化配置信息并将处理过后的现场音频传回用户单元；

所述音频处理模块用于分离不同声源的音轨，并根据用户位置选择信息得到各种声源到用户所选择位置的距离，综合考虑双耳效应以及音频的空气衰减情况，对分离后各个声源的音频进行调相与调幅，最后将处理好的各个音频进行混合，产生提供给用户的左右声道音频；

所述音频存储模块用于存储处理完毕的音频以备录播使用。

进一步地，所述音频采集模块为至少一个录音装置，所述音频存储模块为至少一台智能终端，所述用户单元模块为至少耳机一副、智能终端一个，所述远程通信模块为至少两台支持无线通讯的设备；所述音频处理模块为至少包含一个信息处理器，用于播放录播时的信息通讯与音频数据处理；所述音频处理模块至少包括一个包含音频处理所需距离信息的数据库模块或是一个能够实时测量距离的测距模块。

进一步地，所述音频处理模块为至少一套集成了声音分离子模块、音频调相子模块和调幅与混合子模块；

所述的声音分离子模块用于通过监督学习的深度神经网络将不同声源的声音相互分离；

所述音频调相子模块用于延迟所得音频相位，音频调相子模块使用调相电路实现；

所述调幅与混合子模块用于将处理后的各个声源的声音混合，并且通过调幅操作按照用户意愿放大或缩小合成后声音的大小，调幅操作使用音频放大电路实现；声音混合是将多个音频源的波形进行非线性叠加；在混音时，先对输入音频统一采样率、位宽和声道参数，然后再对PCM波进行混合；混合方法包括线性叠加后求平均、自适应加权求平均和多通道混音三种方法。

第二方面，本发明还提供了一种身临其境的远程音频传输方法，该方法具体步骤如下：

(1)距离测定：结合音频采集模块位置以及用户可选位置情况，测定音频采集模块的位置到各个声源的位置的距离数据；为使得用户能够身临其境，考虑双耳效应，分别测定声音现场所涉及的各个声源到用户可选定的各个位置左端和右端的距离数据；将上述距离数据存储在距离数据库中，对于非静止的声源预先安装测距模块分别实时测量该声源到所提供的各位置左端的距离与右端的距离，并传输给音频处理模块；

(2)用户选择：用户实时选择或切换声音现场采集声源的位置，并且用户还能够选择屏蔽不需要的声源，用户单元模块对用户所选择的位置信息与屏蔽信息实时传递给音频处理模块；

(3)现场音频采集：音频采集模块实时采集各声源的音频，并发送给音频处理模块以对音频进行进一步的处理；

(4)音频分离操作：结合步骤(3)中的音频采集结果，音频处理模块根据各声源声音频率间的差异分离出相对应的音轨，以备后续对各声源的音频进行分别处理；

(5)相对距离计算：结合步骤(1)中的距离测定结果以及步骤(2)中的位置信息，音频处理模块将所测得的各声源到位置左端与右端距离分别减去各音源到音频采集模块的距离，计算出所采集音频还应传输的距离也即相对距离；

(6)调幅操作：对步骤(4)中的音频分离结果依次进行调幅操作；考虑音频传输的空气衰减情况，结合步骤(5)中所计算的相对距离，音频处理模块的信息处理器分别计算出所得音频传输到选定位置左端与右端的音幅衰减情况，音频处理模块的音频调幅模块按照所得衰减情况按左声道与右声道调幅，分别获得调幅后的各个声源的左右声道音频；

(7)调相操作：结合步骤(5)中所得的相对距离，计算出各个音源的音频传播到选定位置左端与右端所需的时间，根据该时间对步骤(6)中所得经过调幅的左右声道音频分别进行相位的延迟操作；

(8)音频混合操作：结合步骤(2)中用户所屏蔽的音源信息以及步骤(7)中所得的各声源的左右声道音频，将所有未被屏蔽的声源的音频进行混合，组合成用户所需的现场音频；

(9)音频传输与保存操作：将步骤(8)中所得的处理完成的音频一方面经过远程通讯模块传输给用户单元模块并最终通过耳机传输给用户，另一方面输入音频存储模块以备录播使用；

(10)用户重新选择：若用户对所得音频不满能够重新选择位置以及声源的屏蔽情况进行实时调整，并重复步骤(3)～步骤(9)；

(11)录播模式：结合步骤(9)中保存的音频，利用音频存储模块将用户所需音频发送给用户单元模块。

进一步地，所述步骤(4)中音频处理模块的音频分离操作，通过多个麦克风对各种声源的音频进行分别采集，采用ICA独立成分分析的方法，将每种声源的音轨分离。

进一步地，所述步骤(4)中音频处理模块的音频分离操作，由于声音现场涉及的每种声源均为事先可知的，采取有监督学习的深度学习方法，对声音分离网络进行预先的训练，并用已训练完毕的深度学习网络实现音频分离工作。

进一步地，所述步骤(4)中音频处理模块的音频分离操作，采用双通道激光测振仪，对每个声源的发声部位进行采集工作，直接得到每个声源的音频而无需进行音频分离操作。

进一步地，所述步骤(5)中相对距离为：

L_left＝L_l1-L_l2

L_right＝L_r1-L_r2

其中L_left、L_right分别为左右耳的相对距离也即后续对音频的调幅与调相操作所需考虑的距离，L_l1、L_r1为各乐器分别到所用户指定位置左侧、右侧的距离，L_l2、L_r2分别为声源采集设备分别到所指定位置左侧、右侧的距离。

进一步地，所述步骤(5)中的相对距离计算只针对固定位置的声源，若存在位置变化的声源则考虑使用激光测距仪实时测量距离信息。

第三方面，本发明还提供了一种基于VR技术的身临其境的远程音频传输方法，该方法具体步骤如下：

(2)用户选择：用户实时选择或切换位置，并且用户还能够选择屏蔽不需要的声源，用户单元模块对用户所选择的位置信息与屏蔽信息实时传递给音频处理模块；

(3)虚拟活动现场呈现：根据用户选择位置的不同，VR眼镜中的图像映射模块向用户眼中投影虚拟活动现场；

(4)现场音频采集：音频采集模块实时采集各声源的音频，并发送给音频处理模块以对音频进行进一步的处理；

(5)音频分离操作：结合步骤(4)中的音频采集结果，音频处理模块根据各声源声音频率间的差异分离出相对应的音轨，以备后续对各声源的音频进行分别处理；

(6)用户头部动作实时监控：VR眼镜中的传感器捕捉用户头部的转动情况，并将此信息传输给音频处理模块；

(7)相对距离的重新计算：以用户所带VR眼镜为中心，其中z轴表示用户面部正对方向，x轴表示面部的水平方向，y轴表示面部的垂直方向，当用户转头时需要重新计算相对距离，具体计算公式如下：

若只进行水平转头则具体计算如下：

其中a为面部中心到用户右耳、左耳的距离；θ₁为用向右侧转头的角度；L_左、L_右为转头前声源距离左右耳朵的距离；L_转右、L_转左为转头后声源距离用户右耳、左耳的距离；θ_转右、θ_转左为声源到用户右耳、左耳的连线与L_转右1、L_转左1间的夹角；

上述数据中，L_转右、L_转左为待求数据；L_左、L_右以及a为事先测定的数据；并且在用户使用之前，预先测定用户转头角度θ₁在[-90°,90°]间改变时L_转右1、L_转左1以及θ_转右、θ_转左对应的值，其中负数角度表示用户向左转头，VR中的传感器实时测定用户的转头角度θ₁，此时通过预先测定的对应关系得出此时L_转右1、L_转左1以及θ_转右、θ_转左对应的值；

此时L_转右计算公式如下：

同理L_转左计算公式如下：

其中

若只进行垂直仰头则具体计算如下：

其中a为面部中心到用户右耳、左耳的距离；θ₂为用向仰头的角度；L_左、L_右为仰头前声源距离左右耳朵的距离；L_仰右、L_仰左为仰头后声源距离用户右耳、左耳的距离；L_仰右1、L_仰左1为仰头过程中，中心x轴向后上方的移动距离；

上述数据中，L_仰右、L_仰左为待求量；a以及L_左、L_右为事先测定完成的数据；θ₂以及L_仰右1、L_仰左1在用户使用VR时可以通过VR的传感器测定；

此时L_仰右计算公式如下：

此时L_仰左计算公式如下：

若只进行向右歪头动作，即头部向右侧肩膀倾斜，则具体计算：

其中a为面部中心到用户左、右耳的距离；θ₃为用户向右歪头的角度；L_左、L_右为歪头前声源距离左右耳朵的距离；L_歪右、L_歪左为歪头头后声源距离用户右耳、左耳的距离；θ_歪右、θ_歪左为声源到用户右耳、左耳的连线与L_歪右1、L_歪左1间的夹角；

上述数据中，L_歪右、L_歪左为待求数据；L_左、L_右以及a为事先测定的数据；并且在用户使用之前，可以预先测定用户歪头角度θ₃在[-90°,90°]间改变时L_歪右1、L_歪左1以及θ_歪右、θ_歪左对应的值，其中负数角度表示用户向左歪头，VR中的传感器实时测定用户的歪头角度θ₃，此时可以通过预先测定的对应关系得出此时L_歪右1、L_歪左1以及θ_歪右、θ_歪左对应的值。

此时L_歪右计算公式如下：

同理L_歪左计算公式如下：

其中：

当用户进行左右转头、仰头低头、左右歪头时，VR测定出对应的转头角度θ₁、仰低头角度θ₂、歪头角度θ₃，并按上述公式计算出最终的相对距离值，传递给音频处理模块，最后音频处理模块根据所得相对距离实时地进行音频处理，以达到让用户“身临其境”的效果。

(8)调幅操作：对步骤(5)中的音频分离结果依次进行调幅操作；考虑音频传输的空气衰减情况，结合步骤(7)中所计算的相对距离，音频处理模块的信息处理器分别计算出所得音频传输到用户左耳与右耳的音幅衰减情况，音频处理模块的音频调幅模块按照所得衰减情况按左声道与右声道调幅，分别获得调幅后的各个声源的左右声道音频；

(9)调相操作：结合步骤(7)中所得的相对距离，计算出各个音源的音频传播到用户左耳与右耳所需的时间，根据该时间对步骤(8)中所得经过调幅的左右声道音频分别进行相位的延迟操作；

(10)音频混合操作：结合步骤(2)中用户所屏蔽的音源信息以及步骤(8)中所得的各声源的左右声道音频，将所有未被屏蔽的声源的音频进行混合，组合成用户所需的现场音频；

(11)音频传输与保存操作：将步骤(10)中所得的处理完成的音频一方面经过远程通讯模块传输给用户单元模块并最终通过耳机传输给用户，另一方面输入音频存储模块以备录播使用；

(12)用户重新选择：若用户对所得音频不满能够重新选择位置以及声源的屏蔽情况进行实时调整，并重复步骤(3)～步骤(11)；

(13)录播模式：结合步骤(11)中保存的音频，利用音频存储模块将用户所需音频发送给用户单元模块。

本发明的有益效果：

1.身临其境的音频传输系统为使用者提供了活动现场的真实感受，营造了身临其境的活动氛围。

2.使用者无需本人到达活动现场，可以随时随地参加活动。

3.综合考虑了人类的双耳效应以及声音的空气衰减，使得用户能够像在现场一样感受声音的远近，提高了使用者的体验感。

4.提供了音源的屏蔽操作使得使用者可以随时屏蔽活动中所涉及某些音源，大大提升了使用者的可操作性，提高了活动的灵活性。

5.录播模式也使得无法参与活动直播的用户仍然可以体验现场活动，使得用户可以灵活安排参与活动的时间而不用担心时间冲突问题。

6.用户可以实时切换座位，体验在不同座位下的现场氛围，相较于参与线下活动，使用者的体验将更加多元。

7.与VR技术相结合，使用者任何的动作都会改变最终的音频输出结果，使得使用者仿佛真的置身于活动现场一般。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是身临其境的音频传输系统仅播放声音方法的组成框图；

图2是身临其境的音频传输系统与VR眼镜相结合方法的组成框图。

图3是用户使用VR模式水平转头时的距离改变简图。

图4是用户使用VR模式垂直仰头时的距离改变简图。

图5是用户使用VR模式歪头(头部向肩膀侧倾斜)时的距离改变简图。

图6是身临其境的音频传输系统仅播放声音方法的具体场景示意图。

图7是身临其境的音频传输系统仅播放声音方法具体示例的流程框图。

图8是身临其境的音频传输系统与VR眼镜相结合方法的具体场景示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

如图1所示，本发明提供的一种身临其境的远程音频传输系统，音频存储模块，音频采集模块，用户单元模块，远程通讯模块，音频处理模块；

所述音频采集模块用于分别采集现场活动所有设定声源的音频；音频采集模块为至少一套录音设备用于采集活动现场声音；

所述音频存储模块用于存储处理完毕的音频以备录播使用；音频存储模块为至少一台智能终端，用于存储处理完毕的音频，并完成用户请求录播时的信息接受、发送以及数据处理工作。

所述用户单元模块用于为使用者提供现场位置选择服务，并接受经过处理的现场音频通过耳机传递给用户；所述用户单元模块为至少一台智能终端以及耳机一副，其中智能终端用于客户座位和音源筛选信息的处理与发送以及对音频的接收，耳机用于将所接收的音频信号分左右声道发送给用户；

所述远程通讯模块用于传输用户信息，并将处理过后的现场音频传输回用户单元；所述远程通信模块为至少两台无线通讯模块，负责信号的收发；

所述音频处理模块用于分离不同声源的音轨，并根据用户位置选择信息得到各种声源到用户所选择位置的距离，综合考虑双耳效应以及音频的空气衰减情况，对分离后各个声源的音频进行调相与调幅，最后将处理好的各个音频进行混合，产生提供给用户的左右声道音频。

所述音频处理模块为至少一套集成了声音分离算法、音频调相、调幅与混合模块、包含音频处理所需距离信息的数据库模块或实时测距模块以及信息处理模块；其中声音分离算法用于分离不同音源的音轨以便分别处理，音频调相、调幅与混合模块用于分别处理不同音源的音轨并将其混合为最终处理完毕的音频，数据库模块或测距模块用于为音频的调相、调幅操作提供依据，信息处理模块用于信息的收发以及数据的处理操作。

所述的声音分离子模块主要用于将不同声源的声音相互分离，这个过程能够很自然地表达成一个监督学习问题；深度神经网络作为当前监督学习最有力的一种方法，可以被用做学习一个从原始数据信号到分离目标的映射函数；因此声音分离子模块能够通过使用例如时域音频网络等基于深度学习的语音分离技术实现。

所述音频调相子模块主要用于延迟所得音频相位，音频调相子模块可以使用常见的调相电路实现。

所述调幅与混合子模块主要用于将处理后的各个声源的声音混合，并且通过调幅操作按照用户意愿放大或缩小合成后声音的大小。其中，声音混合技术的基本原理是将多个音频源的波形按一定的算法进行非线性叠加。通常在混音时，需要先对输入音频统一采样率、位宽、声道等参数，然后再对PCM波进行混合；主要的混合方法有线性叠加后求平均、自适应加权求平均(根据输入流的特点分配权重再加权后求平均)、多通道混音三种方法。调幅可以使用常用的音频放大电路实现。

本发明还提供了一种基于身临其境的远程音频传输系统的远程音频传输方法，该方法具体步骤如下：

(1)远程活动的策划：活动举办方预先先策划好活动内容，选定活动会场以及提供给用户选择的会场座位，选定音频采集装置安装的位置；必要时可以预先对所涉及声源的音频进行采集与训练，为后续的分离操作做铺垫；

(2)距离测定：结合步骤(1)中所选定的音频采集装置位置以及用户可选座位情况，测定音频采集装置的位置到各个声源的位置；为使得用户能够身临其境，考虑双耳效应，分别测定活动所涉及的各个声源到用户可选定的各个座位左端与右端的距离数据，将上述位置信息储存入距离数据库中，对于非静止的声源应预先安装测距模块实时测量该声源到所提供的各座位左右端间的距离，并传输给音频处理模块；

(3)用户选择：活动开始后，用户可以实时选择或切换座位，并且用户还可以选择屏蔽某些声源，用户单元用户所选择的座位信息与屏蔽信息实时传递给音频处理模块；

(4)现场音频采集：活动开始后，音频采集装置实时采集各声源的音频，并发送给音频处理器以便对音频进行进一步的处理；

(5)音频分离操作：结合步骤(4)中的音频采集结果，音频处理器根据各声源声音频率的不同分离出相对应的音轨，以备后续对各声源的音频进行分别处理；该步骤中音频处理模块的音频分离操作，可以采用ICA独立成分分析的方法，将每种声源的音轨分离；但若采用此种方法则需要多个麦克风对各种声源的音频进行分别采集和分离；由于活动涉及的每种声源均为事先可知的，可以采取有监督学习的深度学习方法，对常用的声音分离网络结构例如Conv-TasNet网络或Dual-Path-RNN进行预先的训练，并在活动开始时用已训练完毕的深度学习网络实现音频分离工作；或者也可以采用双通道激光测振仪，对每个声源的发声部位进行采集工作，这样可以直接得到每个声源的音频而无需进行音频分离操作，并且以此方法获得音频可以完全无视其他声源的干扰，所得结果更加准确；

(6)相对距离计算：结合步骤(2)中的距离测定结果以及步骤(3)中的座位信息，音频处理器将所测得的各声源到座位左右端距离分别减去各音源到音频采集装置的距离，计算出所采集音频还应传输的距离也即相对距离；具体计算为：

L_left＝L_l1-L_l2

L_right＝L_r1-L_r2

其中L_left、L_right分别为左右耳的相对距离也即后续对音频的调幅与调相操作所需考虑的距离，L_l1、L_r1为各乐器分别到所指定座位左侧、右侧的距离，L_l2、L_r2分别为声源采集设备分别到所指定座位左侧、右侧的距离；相对距离计算只针对固定位置的声源，若存在位置变化的声源则应当考虑使用激光测距仪实时测量距离信息。

(7)调幅操作：对步骤(5)中的音频分离结果依次进行调幅操作；考虑音频传输的空气衰减情况，结合步骤(6)中所计算的相对距离，音频处理器的信息处理器分别计算出所得音频传输到选定座位左右端的音幅衰减情况，音频处理器的音频调幅模块按照所得衰减情况按左声道与右声道调幅，分别获得调幅后的各个声源的左右声道音频；

(8)调相操作：结合步骤(6)中所得的相对距离，计算出各种音源的音频传播到选定座位左侧与右侧所需的时间，音频调相模块根据该时间对步骤(7)中所得经过调幅的左右声道音频分别进行相位的延迟操作；

(9)音频混合操作：结合步骤(3)中用户所屏蔽的音源信息以及步骤(8)中所得的各声源的左右声道音频，将所有未被屏蔽的声源的音频进行混合，组合成用户所需的现场音频；

(10)音频传输与保存操作：将步骤(9)中所得的处理完成的音频一方面经过远程通讯模块传输给用户单元模块并最终通过耳机传输给用户，另一方面输入音频存储模块以备录播使用；

(11)用户重新选择：若用户对所得音频不满可以重新选择座位以及声源的屏蔽情况并且通过用户单元模块借助远程通讯模块传输给活动现场的音频采集模块进行实时调整，并重复步骤(4)～(10)；

(12)录播模式：结合步骤(10)中保存的音频，对于已经结束的活动利用音频存储模块将用户所需音频发送给用户单元模块。

如图2所示，本发明还提供的一种身临其境的与VR技术相结合的音频传输方法；用户单元模块加入了VR眼镜，该眼镜能实时感受用户的转头等动态信息，并且将该信息传输给音频处理模块，音频处理模块根据用户转头情况计算出声源与用户双耳间距离的改变值，并且由此重新处理音频以达到用户姿态改变则所得音频随之改变的“身临其境”效果。

所述VR眼镜携带图像映射功能，能够将活动现场的三维立体虚拟图像呈现给用户，并且实时检测用户的头部动作情况。

所述音频处理模块涉及到对用户头部动作情况的计算，以此动态地处理音频，让用户感觉如同在现场观看活动一般。

其余模块与仅传输音频方式基本一致。

一种身临其境的与VR技术相结合的音频传输方法具体步骤如下：

(2)距离测定：结合音频采集模块位置以及用户可选座位情况，测定音频采集装置的位置到各个声源的位置的距离数据；为使得用户能够身临其境，考虑双耳效应，分别测定活动所涉及的各个声源到用户可选定的各个座位左端和右端的距离数据；将上述距离数据储存入距离数据库中，对于非静止的声源预先安装测距模块分别实时测量该声源到所提供的各座位左端的距离与右端的距离，并传输给音频处理模块；

(3)用户选择：活动开始后，用户实时选择或切换座位，并且用户还能够选择屏蔽不需要的声源，用户单元模块对用户所选择的座位信息与屏蔽信息实时传递给音频处理模块；

(4)虚拟活动现场呈现：根据用户选择位置的不同，VR眼镜中的图像映射模块向用户眼中投影虚拟活动现场；

(5)现场音频采集：活动开始后，音频采集模块实时采集各声源的音频，并发送给音频处理模块以对音频进行进一步的处理；

(6)音频分离操作：结合步骤(5)中的音频采集结果，音频处理模块根据各声源声音频率间的差异分离出相对应的音轨，以备后续对各声源的音频进行分别处理；

(7)用户头部动作实时监控：VR眼镜中的传感器捕捉用户头部的转动情况，并将此信息传输给音频处理模块；

(8)相对距离的重新计算：以用户所带VR眼镜为中心，其中z轴表示用户面部正对方向，x轴表示面部的水平方向，y轴表示面部的垂直方向，当用户转头时需要重新计算相对距离，具体计算公式如下：

如图3所示，若只进行水平转头则具体计算如下：

其中a为面部中心到用户右耳、左耳的距离；z₁、x₁、y₁为水平转头后坐标轴情况；θ₁为用向右侧转头的角度；虚线L_左、L_右为转头前声源距离左右耳朵的距离；实线L_转右、L_转左为转头后声源距离用户右耳、左耳的距离；L_转右1、转头前面部中心同右耳间连线、转头后中心同右耳间连线三者构成顶角为θ₁的等腰三角形；L_转左1、转头前中心同左耳间连线、转头后中心同左耳间连线三者构成顶角为θ₁的等腰三角形；θ_转右、θ_转左为声源到用户右耳、左耳的连线与L_转右1、L_转左1间的夹角；

上述数据中，L_转右、L_转左为待求数据；L_左、L_右以及a为活动开始前测定的数据；并且在用户使用之前，预先测定用户转头角度θ₁在[-90°,90°]间改变时L_转右1、L_转左1以及θ_转右、θ_转左对应的值(其中负数角度表示用户向左转头)，之后当用户参与活动时，VR中的传感器实时测定用户的转头角度θ₁，此时通过预先测定的对应关系得出此时L_转右1、L_转左1以及θ_转右、θ_转左对应的值。

此时L_转右计算公式如下：

同理L_转左计算公式如下：

其中

如图4所示，若只进行垂直仰头则具体计算如下：

其中a为面部中心到用户右耳、左耳的距离；z₁、x₁、y₁为仰头后坐标轴情况；θ₂为用向仰头的角度；虚线L_左、L_右为仰头前声源距离左右耳朵的距离；实线L_仰右、L_仰左为仰头后声源距离用户右耳、左耳的距离；L_仰右1、L_仰左1为仰头过程中，中心x轴向后上方的移动距离；

上述数据中，L_仰右、L_仰左为待求量；a以及L_左、L_右为在活动开始前便测定完成的数据；θ₂以及L_仰右1、L_仰左1在用户使用VR时可以通过VR的传感器测定。

此时L_仰右计算公式如下：

此时L_仰左计算公式如下：

如图5所示，若只进行向右歪头动作(即头部向右侧肩膀倾斜)则具体计算：

其中a为面部中心到用户左、右耳的距离；z₁、x₁、y₁为歪头动作后的坐标轴情况；θ₃为用户向右歪头的角度；虚线L_左、L_右为歪头前声源距离左右耳朵的距离；实线L_歪右、L_歪左为歪头头后声源距离用户右耳、左耳的距离；L_歪右1、歪头前中心同右耳间连线、歪头后中心同右耳间连线三者构成顶角为θ₃的等腰三角形；L_歪左1、歪头前面部中心同左耳间连线、歪头后中心同左耳间连线三者构成顶角为θ₃的等腰三角形；θ_歪右、θ_歪左为声源到用户右耳、左耳的连线与L_歪右1、L_歪左1间的夹角；

上述数据中，L_歪右、L_歪左为待求数据；L_左、L_右以及a为活动开始前测定的数据；并且在用户使用之前，可以预先测定用户歪头角度θ₃在[-90°,90°]间改变时L_歪右1、L_歪左1以及θ_歪右、θ_歪左对应的值(其中负数角度表示用户向左歪头)，之后当用户参与活动时，可VR中的传感器实时测定用户的歪头角度θ₃，此时可以通过预先测定的对应关系得出此时L_歪右1、L_歪左1以及θ_歪右、θ_歪左对应的值。

此时L_歪右计算公式如下：

同理L_歪左计算公式如下：

其中：

综上所述，当用户进行左右转头、仰头低头、左右歪头时，VR测定出对应的转头角度θ₁、仰低头角度θ₂、歪头角度θ₃，并按上述公式计算出最终的相对距离值，传递给音频处理模块，最后音频处理模块根据所得相对距离实时地进行音频处理，以达到让用户“身临其境”的效果。

(9)调幅操作：对步骤(6)中的音频分离结果依次进行调幅操作；考虑音频传输的空气衰减情况，结合步骤(8)中所计算的相对距离，音频处理模块的信息处理器分别计算出所得音频传输到用户左耳与右耳的音幅衰减情况，音频处理模块的音频调幅模块按照所得衰减情况按左声道与右声道调幅，分别获得调幅后的各个声源的左右声道音频；

(10)调相操作：结合步骤(8)中所得的相对距离，计算出各个音源的音频传播到用户左耳与右耳所需的时间，根据该时间对步骤(9)中所得经过调幅的左右声道音频分别进行相位的延迟操作；

(11)音频混合操作：结合步骤(3)中用户所屏蔽的音源信息以及步骤(9)中所得的各声源的左右声道音频，将所有未被屏蔽的声源的音频进行混合，组合成用户所需的现场音频；

(12)音频传输与保存操作：将步骤(11)中所得的处理完成的音频一方面经过远程通讯模块传输给用户单元模块并最终通过耳机传输给用户，另一方面输入音频存储模块以备录播使用；

(13)用户重新选择：若用户对所得音频不满能够重新选择座位以及声源的屏蔽情况进行实时调整，并重复步骤(4)～(12)；

(14)录播模式：结合步骤(12)中保存的音频，对于已经结束的活动利用音频存储模块将用户所需音频发送给用户单元模块。

实施例一：利用本发明的远程音频传输系统以仅音频传输方式进行线上远程倾听交响乐会。

如图6所示，本实施例中的远程音频传输系统由一个麦克风、一个活动现场的智能终端、用户的移动终端、头戴耳机、一个无线通讯模块、一个音频处理器以及一个混音器组成，分别承担着音频采集模块、音频存储模块、用户单元模块、远程通信模块、音频处理模块的功能。其中的智能终端集成了位置数据库以及音频处理器，并外接了混音器，同时保证该智能终端能够与现场声音采集的麦克风完成实时通讯与音频存储工作。如图7所示，线上倾听音乐会的具体步骤如下：

上传活动信息：活动举办方预先策划好活动，确定活动场地、活动座位提供、活动涉及音源等信息，并将所需信息上传供用户选择。

预先采集各乐器音频并训练音频分离网络：可以使用激光测振仪在活动开始前预先对每个乐器的音频进行采集；具体采集操作为使用激光测振仪对准乐器的发声部位直接获得其音频，以此作为训练数据输送给Conv-TasNet网络或Dual-Path-RNN网络进行预先训练，并在活动开始时用已训练完毕的深度学习网络实现音频分离工作。

用户信息选择：用户使用移动终端，根据活动方所上传的信息，按照自己的喜好选择座位与所需音源，并且当用户对传输而来的交响乐音频不满时，可以随时切换座位、更改屏蔽信息；移动终端将这些信息实时传输给活动现场的智能终端，以供进一步对音频进行处理。

音频采集：麦克风交响乐现场的声音进行采集，并将采集结果传输给智能终端以便音频处理器对其处理。

音频处理：音频处理器首先从麦克风所采集到的音频中分离各个乐器的音轨，分离音轨操作可考虑采用前步中训练完成的Conv-TasNet网络或Dual-Path-RNN网络。根据交响乐现场的各个乐器到座位左右端的距离以及其到麦克风位置的距离，计算出各乐器音频传输给左右声道所需的相位延迟与音幅衰减情况，并按此进行调幅与调相操作；随后将这些处理后的各乐器左右声道的音频按照座位信息的标签分别存储于智能终端中，以备下次录播使用；最后根据用户所提供的对音源的屏蔽情况有选择地对处理完毕的各乐器音频进行混合操作，并传输给用户。

实施例二：利用本发明的远程音频传输系统与VR眼镜相结合进行线上远程倾听交响乐会。

如图8所示，本例中的远程倾听交响乐会系统由一个包含音频输出装置、传感器以及图像映射装置的VR眼镜、一个活动现场智能终端、、一个音频处理器以及一个混音器组成，具体步骤如下：

对于活动信息的上传、各乐器的预训练、音频采集以及音频处理过程同实例一中所述一致。

用户信息选择：用户根据活动方所上传的信息，按照自己的喜好选择座位与所需音源，并且当用户对传输而来的交响乐音频不满时，可以随时切换座位、更改屏蔽信息。

VR成像：VR眼镜将用户所选择位置能观赏到的“虚拟交响乐现场”通过图像映射装置映射到用户眼中，并且当用户选择的座位改变时，成像也将随之改变。

用户转头信息识别:VR眼镜中的传感器实时识别用户的头部动作，并将用户转头的角度信息传输给智能终端的音频处理模块，音频处理模块中的距离计算模块将重新计算音频调幅所需的距离信息。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种身临其境的远程音频传输系统，其特征在于，该系统包括音频存储模块、音频采集模块、用户单元模块、远程通讯模块和音频处理模块；

所述音频采集模块用于采集现场活动所有设定声源的音频；

所述音频存储模块用于存储处理完毕的音频以备录播使用。

2.根据权利要求1所述的远程音频传输系统，其特征在于，所述音频采集模块为至少一个录音装置，所述音频存储模块为至少一台智能终端，所述用户单元模块为至少耳机一副、智能终端一个，所述远程通信模块为至少两台支持无线通讯的设备；所述音频处理模块为至少包含一个信息处理器，用于播放录播时的信息通讯与音频数据处理；所述音频处理模块至少包括一个包含音频处理所需距离信息的数据库模块或是一个能够实时测量距离的测距模块。

3.根据权利要求1所述的远程音频传输系统，其特征在于，所述音频处理模块为至少一套集成了声音分离子模块、音频调相子模块和调幅与混合子模块；

4.一种基于权利要求1-3任一项所述身临其境的远程音频传输系统的远程音频传输方法，其特征在于，该方法具体步骤如下：

5.根据权利要求4所述的远程音频传输方法，其特征在于，所述步骤(4)中音频处理模块的音频分离操作，通过多个麦克风对各种声源的音频进行分别采集，采用ICA独立成分分析的方法，将每种声源的音轨分离。

6.根据权利要求4所述的远程音频传输方法，其特征在于，所述步骤(4)中音频处理模块的音频分离操作，由于声音现场涉及的每种声源均为事先可知的，采取有监督学习的深度学习方法，对声音分离网络进行预先的训练，并用已训练完毕的深度学习网络实现音频分离工作。

7.根据权利要求4所述的远程音频传输方法，其特征在于，所述步骤(4)中音频处理模块的音频分离操作，采用双通道激光测振仪，对每个声源的发声部位进行采集工作，直接得到每个声源的音频而无需进行音频分离操作。

8.根据权利要求4所述的远程音频传输方法，其特征在于，所述步骤(5)中相对距离为：

L_left＝L_l1-L_l2

L_right＝L_r1-L_r2

9.根据权利要求4所述的远程音频传输方法，其特征在于，所述步骤(5)中的相对距离计算只针对固定位置的声源，若存在位置变化的声源则考虑使用激光测距仪实时测量距离信息。

10.一种基于权利要求4所述的远程音频传输方法的基于VR技术的身临其境的远程音频传输方法，其特征在于，该方法具体步骤如下：

若只进行水平转头则具体计算如下：

此时L_转右计算公式如下：

同理L_转左计算公式如下：

其中

若只进行垂直仰头则具体计算如下：

此时L_仰右计算公式如下：

此时L_仰左计算公式如下：

此时L_歪右计算公式如下：

同理L_歪左计算公式如下：

其中：