CN117409804A

CN117409804A - 音频信息的处理方法、介质、服务器、客户端及系统

Info

Publication number: CN117409804A
Application number: CN202210800688.6A
Authority: CN
Inventors: 袁旭公; 卫建清; 潘兴德; 黄旭
Original assignee: Beijing Panoramic Sound Information Technology Co ltd
Current assignee: Beijing Panoramic Sound Information Technology Co ltd
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2024-01-16

Abstract

本申请提供一种音频信息的处理方法、介质、服务器、客户端及系统。该方法包括：获取虚拟环境中的声源的特征参数、环境特征参数和接收者的特征参数；根据声源的特征参数、环境特征参数和接收者的特征参数，建立声场模型；根据声场模型，分别选取与虚拟环境中每个接收者匹配的音频信息，并将音频信息发送给与接收者对应的客户端，以供客户端根据音频信息中的元数据，对音频信息中音频信号进行空间渲染处理，以获取并播放对应的输出数据。本申请的方法，可以使渲染后的输出数据与真实环境中接收者所能听到的声音信息相适配，提高了接收者在虚拟环境中的沉浸感和真实感。

Description

音频信息的处理方法、介质、服务器、客户端及系统

技术领域

本申请涉及虚拟现实技术领域，尤其涉及一种音频信息的处理方法、介质、服务器、客户端及系统。

背景技术

随着虚拟现实技术、计算机网络以及VR等技术的发展，多人连线的虚拟场景成为发展的热点，人们可以在虚拟空间中进行社交、会议、工作、游戏、娱乐等活动。

声音作为人们交流沟通的重要形式，在虚拟场景的建立中起着至关重要的作用。当某用户利用虚拟场景进行交互时，该用户的客户端可以收集用户发出的声音并将声音发送至服务器，服务器可以将该用户发出的声音发送至虚拟场景中其他用户所对应的客户端，以使其他用户能够听到该用户发出的声音。或者，服务器也可以将该虚拟场景所对应的场景声音发送至各用户所对应的客户端，例如鸟鸣声、溪水声等，以使用户有身临其境之感。但是，现有的虚拟场景中对声音的处理比较简单，只能让虚拟场景的用户听到场景声音和/或用户发出的声音，并不能带给用户贴近现实世界的沉浸感和真实感。

因此，需要一种能够在虚拟场景中带给用户沉浸感和真实感的音频信息的处理方案。

发明内容

本申请提供一种音频信息的处理方法、介质、服务器、客户端及系统，用以解决现有的虚拟场景不能带给用户贴近现实世界的沉浸感和真实感的技术问题。

第一方面，本申请提供一种音频信息的处理方法，所述方法包括：

获取虚拟环境中的声源的特征参数、环境特征参数和接收者的特征参数；

根据所述声源的特征参数、环境特征参数和接收者的特征参数，建立声场模型；

根据所述声场模型，分别选取与所述虚拟环境中每个接收者匹配的音频信息，并将所述音频信息发送给与所述接收者对应的客户端，以供所述客户端根据所述音频信息中的元数据，对所述音频信息中音频信号进行空间渲染处理，以获取并播放对应的输出数据；或者，并对每个接收者匹配的音频信息，根据所述音频信息中的元数据，对所述音频信息中音频信号进行空间渲染处理，以获取所述音频信息对应的空间音频信号，将每个音频信息对应的空间音频信号进行混音处理后得到的输出数据发送给客户端进行播放。

本申请实施例提供的方法，可以获取虚拟环境中的声源的特征参数、环境特征参数和接收者的特征参数；根据声源的特征参数、环境特征参数和接收者的特征参数，建立声场模型；根据声场模型，分别选取与虚拟环境中每个接收者匹配的音频信息，并将音频信息发送给与接收者对应的客户端，以供客户端根据音频信息中的元数据，对音频信息中音频信号进行环境渲染和空间渲染处理，以获取并播放对应的输出数据。本申请的方法，首先根据声源的特征参数、环境特征参数和接收者的特征参数建立声场模型，使得声场模型能够包含声源、传播环境以及接收者的全部信息，便于之后音频信息的筛选和匹配。进一步，建立声场模型之后，可以针对不同的接收者在虚拟环境中的位置和偏好等信息，确定与其匹配的音频信息，使得音频信息与真实环境中接收者所能听到的声音信息相适配，提高接收者在虚拟环境中的沉浸感和真实感。进一步，在确定音频信息之后，接收者对应的客户端还会根据音频信息中的元数据，对音频信息中音频信号进行环境渲染和空间渲染处理，使得最终的输出数据能够充分考虑到传播环境对声音传递的影响，并且具备空间特性，即具备方向感和距离感，还能够根据虚拟场景的特点产生适合的混响效果。通过这样的渲染处理，使得接收者能够感知到声音的方向和距离，接收者即使处于虚拟环境也能够体验到与真实空间相适配的声音特点，进一步提高了接收者在虚拟环境中的沉浸感和真实感。

在一种可能的实施方式中，所述根据所述声源的特征参数、环境特征参数和接收者的特征参数，建立声场模型，包括：

根据所述声源的特征参数，建立声源子声场；

根据所述环境特征参数，建立传播环境子声场；

根据所述接收者的特征参数，建立接收者子声场；

根据所述声源子声场、传播环境子声场和接收者子声场，建立声场模型。

在一种可能的实施方式中，还包括：

获取客户端发送的编辑信息；

则所述根据所述接收者的特征参数，建立接收者子声场，包括：

根据所述接收者的特征参数以及所述编辑信息，建立接收者子声场。

在一种可能的实施方式中，所述根据所述声源子声场、传播环境子声场和接收者子声场，建立声场模型，包括：

根据所述声源子声场、传播环境子声场，和所述接收者子声场，将所述声源子声场转换至所述接收者子声场，以获取所述声场模型，使得所述声场模型中每个接收者根据所述接收者对应的环境的特征参数和所述接收者的特征参数与所述声源子声场中的部分声源建立匹配关系；或者使得所述声场模型中每个接收者根据所述接收者对应的环境的特征参数、所述接收者的特征参数和编辑信息，与所述声源子声场中的部分声源建立匹配关系。

在一种可能的实施方式中，所述根据所述声场模型，分别选取与所述虚拟环境中每个接收者匹配的音频信息，包括：

根据所述声场模型，分别选取与所述虚拟环境中每个接收者匹配的声音数据，以及所述声音数据对应的第一渲染参数；并分别根据每个接收者对应的声音数据和第一渲染参数，获取所述每个接收者对应的音频信息；其中，所述音频信息中包括与所述声音数据对应的音频信号，以及分别与所述第一渲染参数对应的元数据。

在一种可能的实施方式中，所述声场模型，分别选取与所述虚拟环境中每个接收者匹配的音频信息，包括：

根据所述声场模型，分别选取与所述虚拟环境中每个接收者匹配的声音数据，以及所述声音数据对应的第一渲染参数和第二渲染参数；并分别根据每个接收者对应的声音数据、第一渲染参数和第二渲染参数，获取所述每个接收者对应的音频信息；其中，所述音频信息中包括与所述声音数据对应的音频信号，以及分别与所述第一渲染参数和第二渲染参数对应的元数据。

在一种可能的实施方式中，所述第一渲染参数包括如下一种或者几种组合：声源位置、声源指向性、接收者位置、接收者朝向、虚拟源位置、虚拟环境空间大小，虚拟环境墙壁反射系数、吸声系数、声屏障、隔音系数、空气吸收系数、环境温度、环境湿度、频响曲线、相位曲线、灵敏度曲线、扬声器阵列的布局方式和扬声器个数。

在一种可能的实施方式中，所述编辑信息包括如下一种或者几种组合：增益调整、均衡调整、滤波、语音强化、声源重定位、背景化和变调；

则所述第二渲染参数包括如下一种或者几种组合：

声源增益调整、声源均衡调整、声源滤波调整、声源频域强化调整、声源重定位调整、声源频域背景化调整和声源变调调整。

在一种可能的实施方式中，所述声源的特征参数包括：声音数据、声源位置、声源形状、声源指向性、声源运动速度、声场传播范围、时频特性和声源内容。

在一种可能的实施方式中，所述根据所述环境特征参数，建立传播环境子声场，包括：

确定所述虚拟环境的三维环境信息和所述虚拟环境中物体的组成材质信息；

根据所述虚拟环境中物体的组成材质信息，确定所述虚拟环境中物体对声音传播的第一影响的参数；其中，所述第一影响的参数包括反射率、散射率和/或吸收率；

根据所述虚拟环境的三维环境信息、以及所述虚拟环境中物体的组成材质信息对应的第一影响的参数，建立所述传播环境子声场。

在一种可能的实施方式中，还包括：根据所述虚拟环境中环境湿度和/或环境温度，获取所述虚拟环境中的传播介质对声音传播的第二影响的参数；其中，所述第二影响的参数包括阻尼和衰减；

则所述根据所述虚拟环境的三维环境信息、以及所述虚拟环境中物体的组成材质信息对应的第一影响的参数，建立所述传播环境子声场，包括：

根据所述虚拟环境的三维环境信息、所述虚拟环境中物体的组成材质信息对应的第一影响的参数，以及所述传播介质对应第二影响的参数，建立所述传播环境子声场。

在一种可能的实施方式中，所述根据所述接收者的特征参数，建立接收者子声场，包括：

根据获取的所述虚拟环境中每个接收者的三维信息的特征参数，或者每个接收者的三维信息的特征参数和设备特征参数，建立所述接收者子声场；

其中，所述三维信息的特征参数包括如下一种或者几种的组合：接收者位置和接收者声音接收范围，所述设备特征参数包括如下一种或者几种的组合：频响曲线、相位曲线、灵敏度曲线、扬声器阵列的布局方式和扬声器个数。

在一种可能的实施方式中，还包括：获取所述虚拟环境中每个接收者对声音偏好的特征参数；

则所述根据获取的所述虚拟环境中每个接收者的三维信息的特征参数，或者每个接收者的三维信息的特征参数和设备特征参数，建立所述接收者子声场，包括：

根据获取的所述虚拟环境中每个接收者的三维信息的特征参数以及每个接收者对声音偏好的特征参数，或者每个接收者的三维信息的特征参数和设备特征参数，以及每个接收者对声音偏好的特征参数，建立所述接收者子声场；

其中，所述声音偏好的特征参数包括如下一种或者几种的组合：接收者心理声学偏好、接收者声源偏好和接收者内容偏好。

第二方面，本申请提供另一种音频信息的处理方法，包括：

接收服务器下发的与客户端对应的接收者的音频信息；所述音频信息包括音频信号，以及所述音频信号对应的元数据；

对于每个音频信息，根据所述音频信息中的元数据，对所述音频信息中音频信号进行空间渲染处理，以获取所述音频信息对应的空间音频信号；

将每个音频信息对应的空间音频信号进行混音处理，以获取并播放对应的输出数据；

其中，所述音频信息是所述服务器根据声场模型，与所述虚拟环境中每个接收者进行匹配得到的，所述声场模型是根据所述虚拟环境中的声源的特征参数、环境特征参数和接收者的特征参数建立的。

本申请实施例提供的方法，可以接收服务器下发的与客户端对应的接收者的音频信息；音频信息包括音频信号，以及音频信号对应的元数据；其中，音频信息是服务器根据声场模型，与虚拟环境中每个接收者进行匹配得到的，声场模型是根据虚拟环境中的声源的特征参数、环境特征参数和接收者的特征参数建立的；对于每个音频信息，根据音频信息中的元数据，对音频信息中音频信号进行环境渲染和空间渲染处理，以获取音频信息对应的具有环境声学效果的空间音频信号；并将每个音频信息对应的处理后的音频信号进行混音处理，以获取并播放对应的输出数据。通过这样的设置，根据音频信息中的元数据，对音频信息中音频信号进行环境渲染和空间渲染处理之后，可以使处理后的音频信号充分考虑到传播环境对声音传递的影响，并且具备空间特性，即具备方向感和距离感。接收者听到渲染后的音频信号后即可感受到声音的来源方位和大致距离，即使处于虚拟环境也能够体验到与真实空间相适配的声音特点，提高了接收者在虚拟环境中的沉浸感和真实感。进一步的，考虑到对于每个接收者而言，一般需要同时接收多个声源传递的声音，因此，通过将每个音频信息对应的处理后的音频信号进行混音处理，可以使混音处理后的输出数据能够根据虚拟场景的特点产生适合的混响效果，与真实空间中声音的传递特点和接收者听感相适配，进一步提高了接收者在虚拟环境中的沉浸感和真实感。

在一种可能的实施方式中，所述根据所述音频信息中的元数据，对所述音频信息中音频信号进行空间渲染处理，以获取所述音频信息对应的空间音频信号，包括：

获取所述音频信息的元数据中与第二标签对应的元数据，并根据所述第二标签对应的元数据，对所述音频信号进行处理，以获取所述音频信息对应的空间音频信号；

其中，所述第二标签对应的元数据表示对空间渲染的元数据。

根据所述音频信息中元数据，对所述音频信息中音频信号进行环境渲染和空间渲染处理，以获取所述音频信息对应的具有环境声学效果的空间音频信号。

在一种可能的实施方式中，所述根据所述音频信息中的元数据，对所述音频信息中音频信号进行环境渲染和空间渲染处理，以获取所述音频信息对应的具有环境声学效果的空间音频信号，包括：

获取所述音频信息的元数据中与第一标签对应的元数据，并根据所述第一标签对应的元数据对所述音频信号进行处理，获取一级音频信号和对应的元数据；

获取所述音频信息的元数据中与第二标签对应的元数据，并根据所述第二标签对应的元数据，以及所述一级音频信号对应的元数据，对所述一级音频信号进行处理，获取具有环境声学效果的空间音频信号；

其中，所述第一标签对应的元数据表示对环境渲染的元数据；所述第二标签对应的元数据表示对空间渲染的元数据。

在一种可能的实施方式中，还包括：

向所述服务器发送编辑信息，或者接收客户端对应的接收者输入的编辑信息；

则所述根据所述音频信息中的元数据，对所述音频信息中音频信号进行环境渲染和空间渲染处理，以获取所述音频信息对应的具有环境声学效果的空间音频信号，包括：

对于每个音频信息，根据所述音频信息中的元数据，对所述音频信息中音频信号进行音频编辑、环境渲染和空间渲染处理，或者进行环境渲染、音频编辑和空间渲染处理，以获取所述音频信息对应的具有环境声学效果的空间音频信号。

在一种可能的实施方式中，所述根据所述音频信息中的元数据，对所述音频信息中音频信号进行音频编辑、环境渲染和空间渲染处理，或者进行环境渲染、音频编辑和空间渲染处理，以获取所述音频信息对应的具有环境声学效果的空间音频信号，包括：

获取所述音频信息的元数据中与第三标签对应的元数据，并根据所述第三标签对应的元数据对所述音频信号进行处理，获取一级音频信号和对应的元数据；

获取所述音频信息的元数据中与第一标签对应的元数据，并根据所述第一标签对应的元数据对所述一级音频信号进行处理，获取二级音频信号和对应的元数据；

获取所述音频信息的元数据中与第二标签对应的元数据，并根据所述第二标签对应的元数据，以及所述二级音频信号对应的元数据，对所述二级音频信号进行处理，获取具有环境声学效果的空间音频信号；

其中，所述第一标签对应的元数据表示对环境渲染的元数据；所述第二标签对应的元数据表示对空间渲染的元数据；所述第三标签对应的元数据表示对音频编辑的元数据。

获取所述音频信息的元数据中与第三标签对应的元数据，并根据所述第三标签对应的元数据对所述一级音频信号进行处理，获取二级音频信号和对应的元数据；

在一种可能的实施方式中，根据所述第一标签对应的元数据对所述音频信号或者一级音频信号进行处理，获取一级音频信号和对应的元数据，或者获取二级音频信号和对应的元数据，包括：

根据所述第一标签对应的元数据，获取所述音频信号或者一级音频信号中的直达声信号和所述直达声信号对应的元数据，所述音频信号或者一级音频信号中的前期反射声信号和所述前期反射声信号对应的元数据，所述音频信号或者一级音频信号中的后期反射声和所述后期反射声信号对应的元数据；

根据所述直达声信号、前期反射声信号和后期反射声信号确定一级音频信号或者二级音频信号；

根据所述直达声信号对应的元数据、所述前期反射声信号对应的元数据和所述后期反射声信号对应的元数据，确定所述一级音频信号对应的元数据或者二级音频信号对应的元数据。

在一种可能的实施方式中，还包括：

获取所述客户端对应的接收者的特征参数，并将所述特征参数上报给所述服务器；

其中，所述接收者的特征参数包括：接收者的三维信息的特征参数和接收者的设备特征参数，或者所述接收者的三维信息的特征参数、接收者的设备特征参数和接收者对声音偏好的特征参数。

在一种可能的实施方式中，所述第三标签对应的元数据表示对音频自身编辑的元数据，包括如下一种或者几种组合：声源增益调整、声源均衡调整、声源滤波调整、声源频域强化调整、声源重定位调整、声源频域背景化调整和声源变调调整。

在一种可能的实施方式中，所述第一标签对应的元数据表示对环境渲染的元数据，包括如下一种或者几种组合：声源位置、声源指向性、虚拟源位置、虚拟环境空间大小，虚拟环境墙壁反射系数、吸声系数、声屏障、隔音系数、空气吸收系数、环境温度和环境湿度。

在一种可能的实施方式中，所述第二标签对应的元数据表示对空间渲染的元数据，包括如下一种或者几种组合：声源位置、声源指向性、接收者位置和接收者朝向。

在一种可能的实施方式中，所述空间渲染的元数据还包括：设备的声学特性参数元数据和设备的布局信息元数据，其中；

所述设备的声学特性参数元数据包括如下一种或者几种：频响曲线、相位曲线、灵敏度曲线；

所述设备的布局信息元数据包括如下一种或者几种：扬声器阵列的布局方式和扬声器个数。

在一种可能的实施方式中，所述获取所述音频信息的元数据中与第二标签对应的元数据，并根据所述第二标签对应的元数据，以及所述一级音频信号对应的元数据或者所述二级音频信号对应的元数据，对所述一级音频信号或者所述二级音频信号进行处理，获取具有环境声学效果的空间音频信号，包括：

获取所述音频信息的元数据中与第二标签对应的元数据，并根据所述第二标签对应的元数据，以及所述一级音频信号对应的元数据或者所述二级音频信号对应的元数据，对所述一级音频信号或者所述二级音频信号进行基于头相关传输函数进行的虚拟渲染处理，或者对所述一级音频信号或者所述二级音频信号进行PAN和基于头相关传输函数进行的虚拟渲染处理，以获取具有环境声学效果的双耳空间音频信号；

或者，

获取所述音频信息的元数据中与第二标签对应的元数据，并根据所述第二标签对应的元数据，以及所述一级音频信号对应的元数据或者所述二级音频信号对应的元数据，对所述一级音频信号或者所述二级音频信号进行如下一种或者几种方式的组合方式进行处理：PAN，波场合成技术、高阶Ambisonics技术和波束成形技术，以获取具有环境声学效果的扬声器阵列的空间音频信号。

第三方面，本申请提供一种服务器，包括：

第一收发模块，用于获取虚拟环境中的声源的特征参数、环境特征参数和接收者的特征参数；根据所述声源的特征参数、环境特征参数和接收者的特征参数，建立声场模型；

第一处理模块，用于根据所述声场模型，分别选取与所述虚拟环境中每个接收者匹配的音频信息，并将所述音频信息发送给与所述接收者对应的客户端，以供所述客户端根据所述音频信息中的元数据，对所述音频信息中音频信号进行空间渲染处理，以获取并播放对应的输出数据；或者，并对每个接收者匹配的音频信息，根据所述音频信息中的元数据，对所述音频信息中音频信号进行空间渲染处理，以获取所述音频信息对应的空间音频信号，将每个音频信息对应的空间音频信号进行混音处理后得到的输出数据发送给客户端进行播放。

在一种可能的实施方式中，所述第一收发模块还用于：

根据所述声源的特征参数，建立声源子声场；

根据所述环境特征参数，建立传播环境子声场；

根据所述接收者的特征参数，建立接收者子声场；

在一种可能的实施方式中，所述第一收发模块还用于：

获取客户端发送的编辑信息；

在一种可能的实施方式中，所述第一处理模块还用于：

根据所述声场模型，分别选取与所述虚拟环境中每个接收者匹配的声音数据，以及所述声音数据对应的第一渲染参数；并分别根据每个接收者对应的声音数据和第一渲染参数，获取所述每个接收者对应的音频信息；其中，所述音频信息中包括与所述声音数据对应的音频信号，以及与所述第一渲染参数对应的元数据。

在一种可能的实施方式中，所述第一处理模块还用于：

在一种可能的实施方式中，所述第一收发模块还用于：

在一种可能的实施方式中，所述第一收发模块还用于：根据所述虚拟环境中环境湿度和/或环境温度，获取所述虚拟环境中的传播介质对声音传播的第二影响的参数；其中，所述第二影响的参数包括阻尼和衰减；

在一种可能的实施方式中，所述第一收发模块还用于：

获取所述虚拟环境中每个接收者对声音偏好的特征参数；

第四方面，本申请提供一种客户端，包括：

第二收发模块，用于接收服务器下发的与客户端对应的接收者的音频信息；所述音频信息包括音频信号，以及所述音频信号对应的元数据；其中，所述音频信息是所述服务器根据声场模型，与所述虚拟环境中每个接收者进行匹配得到的，所述声场模型是根据所述虚拟环境中的声源的特征参数、环境特征参数和接收者的特征参数建立的；

第二处理模块，用于对于每个音频信息，根据所述音频信息中的元数据，对所述音频信息中音频信号进行空间渲染处理，以获取所述音频信息对应的空间音频信号；将每个音频信息对应的空间音频信号进行混音处理，以获取并播放对应的输出数据。

在一种可能的实施方式中，所述第二处理模块还用于：

在一种可能的实施方式中，所述第二收发模块还用于：

则所述第二处理模块还用于：

在一种可能的实施方式中，所述第二处理模块还用于：

在一种可能的实施方式中，所述第二收发模块还用于：

其中，所述接收者的特征参数包括：所述接收者的三维信息的特征参数，或者所述接收者的三维信息的特征参数和接收者对声音偏好的特征参数，或者所述接收者的三维信息的特征参数和接收者的设备特征参数，或者所述接收者的三维信息的特征参数、接收者的设备特征参数和接收者对声音偏好的特征参数。

在一种可能的实施方式中，所述第二处理模块还用于：

或者，

第五方面，本申请提供一种分布式音视频制作系统，包括：服务器和客户端，所述服务器执行时用于实现如第一方面中任一项所述的方法；所述客户端执行时用于实现如第二方面中任一项所述的方法。

第六方面，本申请提供一种服务器，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现上述第一方面中任一项所述的方法。

第七方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现上述第一方面中任一项所述的方法。

第八方面，本申请提供一种客户端，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现上述第二方面中任一项所述的方法。

第九方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现上述第二方面中任一项所述的方法。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为现有技术中虚拟场景的交互示意图；

图2为本申请一实施例的虚拟场景的交互示意图；

图3为本申请一实施例的音频信息的处理方法的流程图；

图4为本申请另一实施例的音频信息的处理方法的流程图；

图5为本申请又一实施例的音频信息的处理方法的流程图；

图6为本申请一实施例的服务器的结构示意图；

图7为本申请另一实施例的服务器的结构示意图；

图8为本申请一实施例的客户端的结构示意图；

图9为本申请另一实施例的客户端的结构示意图。

附图标记：11、用户a的客户端；12、用户b的客户端；13、用户c的客户端；14、用户d的客户端；2、服务器；21、声场建模模块；22、声场预处理模块；A、虚拟场景；61、第一收发模块；62、第一处理模块；81、第二收发模块；82、第二处理模块。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

首先对本申请所涉及的名词进行解释：

虚拟环境中的声源，包括但不限于，虚拟环境的参与者通过客户端发出的声源(例如，参与者通过客户端的麦克风发出的声源)，以及虚拟环境自身特定场景产生的声源(例如，虚拟环境对应的场景为自然场景时，则溪水流动、动物行走产生的声源)，以及虚拟环境的参与者与虚拟环境发生作用产生的声源(例如，虚拟环境对应的场景为自然场景，某个参与者在草地上行走产生的声源)。

随着虚拟现实技术、计算机网络以及VR等技术的发展，多人连线的虚拟场景成为发展的热点，人们可以在虚拟空间中进行社交、会议、工作、游戏、娱乐等活动。现有技术中，处于不同地域的用户可以共同进入一个虚拟场景，从而实现模拟现实的“面对面”交互，提高用户交互的真实感。

图1为现有技术中虚拟场景的交互示意图，如图1所示，服务器2中建立有虚拟场景A，虚拟场景A中包括用户a、b、c和d，其可以通过各自对应的客户端在虚拟场景A中实现“面对面”交互。举例来说，在交互时，用户a通过客户端11上的麦克风说话，客户端11收集用户a发出的声音并将声音发送至服务器2，服务器2将用户a发出的声音直接转发至客户端12、13和14，以使用户b、c和d能够听到用户a发出的声音1。

在上述过程中，虽然用户b、c和d是处于虚拟场景之中，但是最终听到的声音是完全相同的，只能感受到用户a在耳边说话。显然，现有的虚拟场景中其对声音的处理仅是能让虚拟场景的用户听到场景声音和/或用户发出的声音而已，换言之，仅是将各种场景声音和/或用户发出的声音机械式地在用户b、c和d处进行简单还原，这样做并不能带给用户贴近现实世界的沉浸感和真实感，从而造成用户体验差的技术问题。

基于该技术问题，本申请的发明构思在于：如何提供一种音频信息处理方法，以能提高用户在虚拟场景中的声音沉浸感。

具体为，根据声源的特征参数、环境特征参数和接收者的特征参数建立声场模型，使得声场模型能够包含声源、传播环境以及接收者的全部信息，便于之后音频信息的筛选和匹配。进一步，建立声场模型之后，可以针对不同的接收者在虚拟环境中的位置和偏好等信息，确定与其匹配的音频信息，使得音频信息与真实环境中接收者所能听到的声音信息相适配，提高接收者在虚拟环境中的沉浸感和真实感。进一步，在确定音频信息之后，接收者对应的客户端还会根据音频信息中的元数据，对音频信息中音频信号进行环境渲染和空间渲染处理，使得最终的输出数据能够充分考虑到传播环境对声音传递的影响，并且具备空间特性，即具备方向感和距离感，还能够根据虚拟场景的特点产生适合的混响效果。通过这样的渲染处理，使得接收者能够感知到声音的方向和距离，接收者即使处于虚拟环境也能够体验到与真实空间相适配的声音特点，进一步提高了接收者在虚拟环境中的沉浸感和真实感。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请一实施例的虚拟场景的交互示意图，如图2所示，服务器2中建立有虚拟场景A，虚拟场景A中包括用户a、b、c和d，其可以通过各自对应的客户端在虚拟场景A中实现“面对面”交互。在交互时，用户a通过客户端11上的麦克风说话，客户端11收集用户a发出的声音并将声音发送至服务器2，服务器2中的声场建模模块21接收到用户a发出的声音1后，根据声音1以及虚拟场景A中所有的声源的特征参数，建立声源子声场；声场建模模块21还根据虚拟场景A的环境特征参数建立传播环境子声场；声场建模模块21还分别根据用户a、b、c和d对应的接收者的特征参数，建立接收者子声场；声场建模模块21还根据声源子声场、传播环境子声场和接收者子声场，建立声场模型。之后，服务器2中的声场预处理模块22根据声场模型，分别选取与用户b、c和d匹配的音频信息，并将音频信息分别发送给客户端11、12、13和14，客户端11、12、13和14各自的音频后处理模块会根据接收到的音频信息中的元数据，对音频信息中音频信号进行环境渲染和空间渲染处理，以获取并播放声音2、3和4。

此时，由于用户b离用户a最近，并且位于用户a的左后方，则用户b听到的声音应该较大，并且是从右前方传来的。用户d离用户a最远，并且位于用户a的右后方，则用户b听到的声音应该较小，并且是从左前方传来的。用户c离用户a处于用户b和d之间，并且位于用户a的正前方，则用户c听到的声音应该处于用户b和d之间，并且是从后方传来的。即用户b、c和d听到的声音并不相同，声音效果与真实环境下声音传递产生的声音效果相同。

实施例一

图3是本申请一实施例提供的音频信息的处理方法的流程图，本申请实施例提供的音频信息的处理方法的执行主体可以是服务器，本实施例以执行主体为服务器对该音频信息的处理方法进行说明。如图3所示，该音频信息的处理方法可以包括以下步骤：

S101：获取虚拟环境中的声源的特征参数、环境特征参数和接收者的特征参数。

在本实施例中，服务器可以直接获取虚拟环境中对应场景产生的场景声源(非人物体直接产生的声源)，以及各接收者与场景中物体相互作用产生的声源(人与非人物体作用产生的声源)。此外，服务器还可以接收客户端发送的各接收者产生的声源(人直接产生的声源)。获取到虚拟环境中的声源之后，即可根据需要获取对应的声源的特征参数。

在本实施例中，虚拟环境可以是技术人员事先通过各种数据设置好的，当某接收者想要在某虚拟场景中开会时，接收者可以直接根据该虚拟场景选择相应的虚拟环境。服务器接收到接收者通过客户端选择的虚拟环境确定之后，即可根据该虚拟环境的相关数据确定对应的环境特征参数。

在本实施例中，当各接收者进入虚拟环境之后，即会选择在该虚拟环境的位置，因此，可以根据接收者位置、朝向等信息确定各接收者对应的接收者的特征参数。

S102：根据声源的特征参数、环境特征参数和接收者的特征参数，建立声场模型。

在本实施例中，声场模型可以包含该虚拟环境的声源、传播环境以及接收者的全部信息，以便于之后每个接收者对应的音频信息的筛选和匹配。

在本实施例中，上述步骤S102根据声源的特征参数、环境特征参数和接收者的特征参数，建立声场模型的具体实施方式请详见实施例二。

S103：根据声场模型，分别选取与虚拟环境中每个接收者匹配的音频信息，并将音频信息发送给与接收者对应的客户端，以供客户端根据音频信息中的元数据，对音频信息中音频信号进行空间渲染处理，以获取并播放对应的输出数据。

在本实施例中，步骤S101-S103可以是，服务器对虚拟环境中产生的声音数据进行预处理的过程，即服务器对虚拟环境中产生的声音数据进行预处理，以得到每个接收者匹配的音频信息。之后，服务器将音频信息发送给与接收者对应的客户端，客户端进行后处理，即进行渲染过程。如果在服务器端完成声音的渲染得到输出数据，再发送至客户端，客户端只输出声音，会产生声音的延迟，从而影响接收者的沉浸感和真实感。因此，服务器可以只进行前期声音的预处理，客户端进行声音的渲染过程，从而提高接收者在虚拟环境中的沉浸感和真实感。

可替代的，在步骤S103中的根据声场模型，分别选取与虚拟环境中每个接收者匹配的音频信息之后，服务器还可以对每个接收者匹配的音频信息，根据音频信息中的元数据，对音频信息中音频信号进行空间渲染处理，以获取音频信息对应的空间音频信号，将每个音频信息对应的空间音频信号进行混音处理后得到的输出数据发送给客户端进行播放。

即服务器在对声音数据进行预处理得到每个接收者匹配的音频信息之后，直接对音频信息进行渲染处理，最终处理后得到的输出数据发送给客户端，客户端只起播放的作用。

在本实施例中，由于客户端的算力有限，可能某些接收者对声音的处理较多，导致客户端的算力不足以完成声音的渲染，或者处理很慢，因此，为了提高声音处理的效果，提高接收者的沉浸感和真实感，后处理过程也可以在服务器完成。

在本实施例中，服务器对音频信息进行后处理的过程与客户端对音频信息进行后处理的过程相同，具体的实施方式请见实施例三，在此不做赘述。

在一个可能的实施方式中，上述步骤S103中根据声场模型，分别选取与虚拟环境中每个接收者匹配的音频信息，可以包括：根据声场模型，分别选取与虚拟环境中每个接收者匹配的声音数据，以及声音数据对应的第一渲染参数；并分别根据每个接收者对应的声音数据和第一渲染参数，获取每个接收者对应的音频信息；其中，音频信息中包括与声音数据对应的音频信号，以及与第一渲染参数对应的元数据。

在本实施方式中，当服务器只进行预处理时，可以根据每个接收者对应的声音数据和第一渲染参数，获取每个接收者对应的音频信息。

在本实施方式中，第一渲染参数指的是，根据声源的特征参数、环境特征参数和接收者的特征参数进行匹配、筛选和处理后得到的渲染参数，是根据声场模型的固有特性得到的渲染参数，与接收者输入的编辑信息等无关。

在本实施方式中，建立声场模型之后，针对每个接收者，可以根据接收者在虚拟环境中的位置、声源位置以及传播环境等信息对声源进行筛选，从而确定每个接收者所能听到的声源，即与接收者匹配的声音数据。通过这样的设置，可以使声音数据与真实环境下接收者所能接收到的声音相适配，提高声音的真实感。

进一步的，在确定接收者匹配的声音数据之后，还可以确定该声音数据对应的第一渲染参数，后续客户端通过第一渲染参数对声音数据进行渲染时，可以使渲染后的声音具备方向感和距离感，使得接收者听到渲染后的数据后可以感受到声音的来源方位和大致距离。接收者即使处于虚拟环境也能够体验到与真实空间相适配的声音特点，进一步提高了接收者在虚拟环境中的沉浸感和真实感。

在另一个可能的实施方式中，上述步骤S103中根据声场模型，分别选取与虚拟环境中每个接收者匹配的音频信息，可以包括：根据声场模型，分别选取与虚拟环境中每个接收者匹配的声音数据，以及声音数据对应的第一渲染参数和第二渲染参数；并分别根据每个接收者对应的声音数据、第一渲染参数和第二渲染参数，获取每个接收者对应的音频信息；其中，音频信息中包括与声音数据对应的音频信号，以及分别与第一渲染参数和第二渲染参数对应的元数据。

在本实施方式中，当服务器进行预处理和后处理时，可以根据每个接收者对应的声音数据、第一渲染参数和第二渲染参数，获取每个接收者对应的音频信息。

在本实施方式中，第二渲染参数指的是，根据接收者输入的编辑信息确定的渲染参数，是根据用户对声音数据的调整所对应的渲染参数。客户端接收到接收者输入的编辑信息之后，可以将编辑信息发送至服务器。

在本实施方式中，建立声场模型之后，针对每个接收者，一方面，可以对声音数据进行筛选，筛选出接收者能够听到的声音数据，使声音数据与真实环境下接收者所能接收到的声音相适配，提高声音数据的真实感。另一方面，还可以根据接收者通过客户端输入的编辑信息对声音数据进行有针对性地处理，使得接收者可以按照自身需求对声音数据进行筛选和效果调整，实现接收者与声音的交互，从而满足不同接收者的需求。

进一步的，在确定接收者匹配的声音数据之后，一方面，可以确定该声音数据对应的第一渲染参数，后续客户端通过第一渲染参数对应的元数据对声音数据对应的音频信号进行渲染时，能够充分考虑到传播环境对声音传递的影响，还能够使渲染后的音频信号具备方向感和距离感，使得接收者听到渲染后的音频信号后可以感受到声音的来源方位和大致距离。接收者即使处于虚拟环境也能够体验到与真实空间相适配的声音特点，进一步提高了接收者在虚拟环境中的沉浸感和真实感。另一方面，可以确定该声音数据对应的第二渲染参数，后续客户端通过第二渲染参数对应的元数据对声音数据对应的音频信号进行渲染时，可以使渲染后的音频信号满足接收者的需求，提升用户使用体验。

在一个可能的实施方式中，第一渲染参数可以包括如下一种或者几种组合：声源位置、声源指向性、接收者位置、接收者朝向、虚拟源位置、虚拟环境空间大小，虚拟环境墙壁反射系数、吸声系数、声屏障、隔音系数、空气吸收系数、环境温度、环境湿度、频响曲线、相位曲线、灵敏度曲线、扬声器阵列的布局方式和扬声器个数。

在本实施方式中，虚拟源位置指的是对应声源位置的镜像位置；虚拟环境墙壁反射系数指的是虚拟环境墙壁对声音的反射率；吸声系数指的是虚拟环境墙壁对声音的吸收率；声屏障指的是障碍物对声音的阻挡；隔音系数指的是障碍物度声音的阻隔率；空气吸收系数指的是空气对声音的吸收率；频响曲线、相位曲线、灵敏度曲线指的是接收者客户端的音频设备的声学特性曲线；扬声器阵列的布局方式和扬声器个数指的是接收者客户端的扬声器设备的布局信息。

在本实施方式中，当服务器只进行预处理时，第一渲染参数可以不包括频响曲线、相位曲线、灵敏度曲线、扬声器阵列的布局方式和扬声器个数等设备参数。当服务器进行预处理和后处理时，第一渲染参数可以包括频响曲线、相位曲线、灵敏度曲线、扬声器阵列的布局方式和扬声器个数等设备参数，这些参数可以由客户端发送至服务器。

在本实施方式中，通过上述第一渲染参数对应的元数据对声音数据对应的音频信号进行渲染处理，可以充分考虑声音在真实环境下的传播特性，使得渲染后的声音具备方向感和距离感，从而使接收者听到渲染后的数据后可以感受到声音的来源方位和大致距离。接收者即使处于虚拟环境也能够体验到与真实空间相适配的声音特点，进一步提高了接收者在虚拟环境中的沉浸感和真实感。

在一个可能的实施方式中，编辑信息可以包括如下一种或者几种组合：增益调整、均衡调整、滤波、语音强化、声源重定位、背景化和变调；则第二渲染参数可以包括如下一种或者几种组合：声源增益调整、声源均衡调整、声源滤波调整、声源频域强化调整、声源重定位调整、声源频域背景化调整和声源变调调整。

在本实施方式中，编辑信息是接收者根据自身需求对声音处理的设置和调整，增益调整指的是，对某个或某些声源进行响度增强处理；均衡调整指的是，对某个或某些声源进行EQ处理；滤波指的是，对某个或某些声源进行滤波处理；语音强化指的是，对某个或某些声源进行降噪处理；声源重定位指的是，对某个或某些声源进行重新定位，即改变声源位置，使原本能听到的声源听不到或者使原本听不到的声源能听到；背景化指的是，对某个或某些声源进行响度减弱处理；变调指的是，对某个或某些声源进行提高声调或者降低声调处理。

在本实施方式中，通过上述第二渲染参数对应的元数据对声音数据对应的音频信号进行渲染处理，可以充分考虑接收者的不同需求，按照接收者自身需求对声音数据进行筛选和效果调整，实现接收者与声音的交互，提升用户使用体验。

在本实施例中，首先可以根据声源的特征参数、环境特征参数和接收者的特征参数建立声场模型，使得声场模型能够包含声源、传播环境以及接收者的全部信息，便于之后音频信息的筛选和匹配。进一步，建立声场模型之后，可以针对不同的接收者在虚拟环境中的位置和偏好等信息，确定与其匹配的音频信息，使得音频信息与真实环境中接收者所能听到的声音信息相适配，提高接收者在虚拟环境中的沉浸感和真实感。进一步，在确定音频信息之后，接收者对应的客户端还会根据音频信息中的元数据，对音频信息中音频信号进行环境渲染和空间渲染处理，使得最终的输出数据能够充分考虑到传播环境对声音传递的影响，并且具备空间特性，即具备方向感和距离感，还能够根据虚拟场景的特点产生适合的混响效果。通过这样的渲染处理，使得接收者能够感知到声音的方向和距离，接收者即使处于虚拟环境也能够体验到与真实空间相适配的声音特点，进一步提高了接收者在虚拟环境中的沉浸感和真实感。

下面以实施例二对实施例一中的步骤S102根据声源的特征参数、环境特征参数和接收者的特征参数，建立声场模型的具体实施方式进行详细阐述。

实施例二

图4是本申请一实施例提供的音频信息的处理方法的流程图，本申请实施例提供的音频信息的处理方法的执行主体可以是服务器，本实施例以执行主体为服务器对该音频信息的处理方法进行说明。如图4所示，该音频信息的处理方法可以包括以下步骤：

S201：根据声源的特征参数，建立声源子声场。

在一个可能的实施方式中，声源的特征参数包括：声音数据、声源位置、声源形状、声源指向性、声源运动速度、声场传播范围、时频特性和声源内容。

在本实施方式中，服务器获取到声源之后，即可根据声源确定上述声源的特征参数。

在本实施方式中，声音数据指的是，声源对应的音频信号；时频特性指的是随时间变化的声音频域特性；声源内容指的是，音频信号所要表达的内容(例如，自然产生的声音、人说话的声音等，可以认为是声源的标签)。

在本实施方式中，基于上述特征参数，可以充分表征各声源各自的特性，使得基于声源的特征参数建立的声源子声场，可以包含虚拟环境中声源的全部信息，便于后续根据声源子声场建立声场模型来获取接收者匹配的音频信息。

S202：根据环境特征参数，建立传播环境子声场。

在一个可能的实施方式中，根据获取的虚拟环境的环境特征参数，建立传播环境子声场，可以包括：确定虚拟环境的三维环境信息和虚拟环境中物体的组成材质信息；根据虚拟环境中物体的组成材质信息，确定虚拟环境中物体对声音传播的第一影响的参数；其中，第一影响的参数包括反射率、散射率和/或吸收率；根据虚拟环境的三维环境信息、以及虚拟环境中物体的组成材质信息对应的第一影响的参数，建立传播环境子声场。

在本实施方式中，当虚拟环境是密闭空间(例如会议室)时，根据虚拟环境的三维环境信息可以确定虚拟空间的大小和位置，根据虚拟环境中物体的组成材质信息可以确定虚拟环境中物体对声音传播的影响参数。

在本实施方式中，环境特征参数可以是虚拟环境及其组成材质对声音传播的影响的特征参数。根据虚拟环境的三维环境信息、以及虚拟环境中物体的组成材质信息对应的第一影响的参数，建立传播环境子声场，可以使传播环境子声场充分表征虚拟环境对声音传播的影响，便于后续根据传播环境子声场建立声场模型来获取接收者匹配的音频信息。

在一个可能的实施方式中，还可以包括：根据虚拟环境中环境湿度和/或环境温度，获取虚拟环境中的传播介质对声音传播的第二影响的参数；其中，第二影响的参数包括阻尼和衰减；则根据虚拟环境的三维环境信息、以及虚拟环境中物体的组成材质信息对应的第一影响的参数，建立传播环境子声场，包括：根据虚拟环境的三维环境信息、虚拟环境中物体的组成材质信息对应的第一影响的参数，以及传播介质对应第二影响的参数，建立传播环境子声场。

在本实施方式中，环境湿度和环境温度均可对声音在空气中的传播造成影响，因此，还可以根据虚拟环境中环境湿度和/或环境温度，获取虚拟环境中的传播介质对声音传播的第二影响的参数。

在本实施方式中，环境特征参数不仅包括虚拟环境及其组成材质对声音传播的影响的特征参数，还包括传播介质对声音传播的影响的特征参数。根据虚拟环境的三维环境信息、虚拟环境中物体的组成材质信息对应的第一影响的参数，以及传播介质对应第二影响的参数，建立传播环境子声场，可以进一步使传播环境子声场充分表征虚拟环境对声音传播的影响，提高传播环境子声场对声音传播影响的准确性和全面性。

S203：根据接收者的特征参数，建立接收者子声场。

在一个可能的实施方式中，还可以包括：获取客户端发送的编辑信息；则根据接收者的特征参数，建立接收者子声场，包括：根据接收者的特征参数以及编辑信息，建立接收者子声场。

在本实施方式中，当服务器进行预处理和后处理时，客户端会将编辑信息发送至服务器，此时服务器可以根据接收者的特征参数以及编辑信息，建立接收者子声场，当然，也可以只根据接收者的特征参数，建立接收者子声场。

在本实施方式中，若接收者有对声音的特殊需求，则可以通过客户端向服务器发送有关声音调整和设置的编辑信息。服务器在接收到编辑信息之后，可以根据接收者的特征参数以及编辑信息，建立接收者子声场，使得接收者子声场在考虑接收者自身需求的基础上，能够充分表征接收者接收声音的全部影响信息，便于后续根据传播环境子声场建立声场模型来获取接收者匹配的音频信息，此外，还能够实现接收者与声音的交互，提升用户使用体验。

在一个可能的实施方式中，根据接收者的特征参数，建立接收者子声场，可以包括：根据获取的虚拟环境中每个接收者的三维信息的特征参数，或者每个接收者的三维信息的特征参数和设备特征参数，建立接收者子声场；其中，三维信息的特征参数包括如下一种或者几种的组合：接收者位置和接收者声音接收范围，设备特征参数可以包括如下一种或者几种的组合：频响曲线、相位曲线、灵敏度曲线、扬声器阵列的布局方式和扬声器个数。

在本实施方式中，根据接收者的三维信息的特征参数，可以确定接收者的位置，并据此确定接收者声音接收范围。根据设备特征参数，可以确定接收者客户端的音频输出设备的设备信息。

在本实施方式中，接收者的特征参数可以包括能够表征接收者位置的三维信息的特征参数，以及能够表征接收者客户端的音频输出设备的设备特征参数。根据获取的虚拟环境中每个接收者的三维信息的特征参数和设备特征参数，建立接收者子声场，可以使接收者子声场充分表征接收者接收声音的全部影响信息，便于后续根据传播环境子声场建立声场模型来获取接收者匹配的音频信息。

在一个可能的实施方式中，还可以包括：获取虚拟环境中每个接收者对声音偏好的特征参数；则根据获取的虚拟环境中每个接收者的三维信息的特征参数，或者每个接收者的三维信息的特征参数和设备特征参数，建立接收者子声场，包括：根据获取的虚拟环境中每个接收者的三维信息的特征参数以及每个接收者对声音偏好的特征参数，或者每个接收者的三维信息的特征参数和设备特征参数，以及每个接收者对声音偏好的特征参数，建立接收者子声场；其中，声音偏好的特征参数包括如下一种或者几种的组合：接收者心理声学偏好、接收者声源偏好和接收者内容偏好。

在本实施方式中，接收者心理声学偏好指的是，接收者解释声音的方式，即人的听感，不同的接收者听感可能不同。心理声学的主观感受主要有响度、音高、音色等特征，和掩蔽效应、短波定位等特性。

在本实施方式中，接收者可能对声源、声源内容、理声学的主观感受等有不同的偏好，例如，不想听到某个人的声音，或者只想听到自然产生的声音，或者想要降低声音掩蔽等。

在本实施方式中，接收者的特征参数不仅可以包括能够表征接收者位置的三维信息的特征参数，以及能够表征接收者客户端的音频输出设备的设备特征参数，还可以包括能够表征接收者声音偏好的每个接收者对声音偏好的特征参数。根据获取的虚拟环境中每个接收者的三维信息的特征参数和设备特征参数，以及每个接收者对声音偏好的特征参数，建立接收者子声场，可以使接收者子声场在考虑接收者声音偏好的基础上，充分表征接收者接收声音的全部影响信息，便于后续根据传播环境子声场建立声场模型来获取接收者匹配的音频信息，此外，还能够实现接收者与声音的交互，提升用户使用体验。

S204：根据声源子声场、传播环境子声场和接收者子声场，建立声场模型。

在本实施例中，子声场可以并不仅包括上述三个子声场，也可以是四个或者更多，在此不做任何限制。当然，也可以仅建立声源子声场和接收者子声场这两个子声场，并根据这两个子声场建立声场模型。

在一个可能的实施方式中，根据声源子声场、传播环境子声场和接收者子声场，建立声场模型，可以包括：根据声源子声场、传播环境子声场，和接收者子声场，将声源子声场转换至接收者子声场，以获取声场模型，使得声场模型中每个接收者根据接收者对应的环境的特征参数和接收者的特征参数与声源子声场中的部分声源建立匹配关系。

在本实施方式中，在声源子声场、传播环境子声场和接收者子声场确定之后，即可根据这三者之间的匹配关系将声源子声场转换至接收者子声场，即根据环境的特征参数和接收者的特征参数确定声源子声场中哪些声源可以被接收者听到，而哪些不可以，从而建立声场模型。通过这样的设置，可以使声场模型充分表征每个接收者与声源之间的对应关系，便于后续根据声场模型获取与每个接收者匹配的音频信息，使音频信息能够与真实环境下接收者能够听到的声音相适配，提高接收者在虚拟环境中的沉浸感和真实感。

在另一个可能的实施方式中，根据声源子声场、传播环境子声场和接收者子声场，建立声场模型，可以包括：根据声源子声场、传播环境子声场，和接收者子声场，将声源子声场转换至接收者子声场，以获取声场模型，使得声场模型中每个接收者根据接收者对应的环境的特征参数、接收者的特征参数和编辑信息，与声源子声场中的部分声源建立匹配关系。

在本实施方式中，在声源子声场、传播环境子声场和接收者子声场确定之后，即可根据这三者之间的匹配关系以及接收者输入的编辑信息将声源子声场转换至接收者子声场，即根据环境的特征参数、接收者的特征参数以及编辑信息确定声源子声场中哪些声源可以被接收者听到，而哪些不可以，从而建立声场模型。通过这样的设置，可以使声场模型在考虑接收者自身需求的基础上，充分表征每个接收者与声源之间的对应关系，便于后续根据声场模型获取与每个接收者匹配的音频信息，使音频信息不仅能够与真实环境下接收者能够听到的声音相适配，提高接收者在虚拟环境中的沉浸感和真实感，还考虑用户自身需求，实现接收者与声音的交互，提升用户使用体验。

在本实施例中，可以首先根据声源的特征参数，建立包含虚拟环境中声源的全部信息的声源子声场；根据环境特征参数，建立能充分表征虚拟环境对声音传播的影响的传播环境子声场；根据接收者的特征参数，建立能够充分表征接收者接收声音的全部影响信息的接收者子声场。之后，根据声源子声场、传播环境子声场和接收者子声场这三者之间的匹配关系确定声源子声场中哪些声源可以被接收者听到，而哪些不可以，从而建立声场模型。通过这样的设置，可以简单而又准确地获取能够充分表征每个接收者与声源之间的对应关系的声场模型，便于后续根据声场模型获取与每个接收者匹配的音频信息，使音频信息能够与真实环境下接收者能够听到的声音相适配，提高接收者在虚拟环境中的沉浸感和真实感。

下面以几个具体的实施例对本申请实施例一和实施例二所述的应用于服务器的音频信息的处理方法(前处理过程)进行阐述。

实施例三

在一个具体的实施例中，几名参会人员建立了一个小型的虚拟会议室，开展会议。在小型的会议室中，参会人员人数较少，会议室由一个小房间构成，无其他障碍物和特殊传播介质。参会人员一起讨论问题，每个人既是一个声源，也是一个接收者，除了每个参会人员外，会议室中再无其他的声源和接收者，每个参会人员都在对方声源Rs和接收者Rr的覆盖范围之内，所以很多处理都可以简化。在本实施例中，服务器具体的音频信息的处理过程如下：

第一步：n个参会用户，采用peer to peer的方式建立连接。

第二步：每一个用户利用客户端控制自己的位置Pos，和朝向Orient。

第三步：每一个用户在发言时，客户端会通过本地mic采集他的声音数据并发送至服务器，服务器据此生成压缩音频数据S，并将Pos和Orient打包成声源子声场元数据Ms。

第四步：每一个客户端将会议室的三维信息构建空间模型并发送至服务器，服务器据此生成传播环境声场模型元数据Mme。

第五步：用户可以操作客户端UI，对每个上传的声音做强化、增益、EQ、重定位等互动操作，客户端接收到之后生成对应参数并将其发送至服务器，服务器接收到后会据此生成对每一个声音互动的元数据集合Ma，与传播环境声场模型元数据Mme和声源声场元数据Ms封装成元数据集合M。

第六步：服务器将发言的用户的声音集合S和元数据集合M和A发送到其他用户的客户端，以使得每个客户端均可以采用上述实施例三的方式进行音频编辑、环境渲染和空间渲染处理，并输出最终符合用户设置的声音数据，并播放。

实施例四

在一个具体的实施例中，主办方建立了一个大型的虚拟文化广场，该大型虚拟文化广场的应用设定如下：

(1)文化广场是一片开阔的声场，场景中会根据用户设定存在声音传播的障碍物。

(2)场景中划分了不同区域的展区，每个展区由主办方展示一个主题活动。

(3)场景中的虚拟人由线上用户控制，虚拟人分为主办方和游客两类，主办方必须有独立的展区，而游客可以任意漫游于不同的展区，观赏主办方的节目，与主办方或其他游客互动。

(4)游客和主办方都既是声场中的声源，又是声场的接收者，另外举办方还可以创建其他声源，如实现播放音乐、播放电影、乐器演奏等节目的声源。

(5)主题活动包括但不限于娱乐、培训、比赛、会议等。

(6)游客和举办方作为声场的接收者，听到的声音符合空间音频原理，另外，游客还可以根据自己的喜好对所收听的声音做偏好设定，偏好设定可以是下面的一种或多种：

①设定声场接收范围，超过此范围的声源不接收。

②设定声音的频率偏好，可以按照频率过滤掉一些声音，如不想听人声，可以过滤掉人声频率范围内的声音，不想听音乐声，可以过滤掉音乐频率范围内的声音。

③可以根据内容选择接收的声音，如想听电影的声源，不想听培训的声源。

④可以根据声源选择接收的声音，如可创建好友列表和黑名单，如果是好友，则即使不在对方的声源作用范围内，也能够听到，如果是黑名单声源，则不能听到。也可以根据展区来选择，展区范围内的声源都能听到，展区范围外都听不到。

在本实施例中，服务器具体的音频信息的处理过程如下：

第一步：服务器根据声场的边缘信息W和障碍物信息O，建立声音的传播环境声场模型ME：{W，O}。

第二步：客户端用收音设备或其他方式获得用户的声音，包括但不限于用户语音或已制作好的音频数据。压缩声音数据成为编码数据S；分析音频数据，生成声音的影响范围Rs、时频特性信息Fs；根据声源在三维场景中的位置，生成声源位置信息Ps；如果声音是人声，则属于点声源，如果声音由其他方式发出，则由主办方设置声音的屋里模型Ds；如果是游客，则声源内容直接设定为游客评论，如果是主办方的节目，则可从节目类型列表中选择节目内容信息Cs；客户端将S，Rs，Fs，Ps，Ds，Cs等信息发送至服务器，服务器接收到之后形成该声源的子声场模型MS：{S，Rs，Fs，Ps，Ds，Cs}。

第三步：客户端根据用户的设定，生成接收声音的偏好参数，并将接收声音的偏好参数发送至服务器，服务器接收到之后最终建立接收者子声场偏好模型MR：{Rr，Fr，Sr，Cr，Pr}。

第四步：服务器针对每一个接收者，根据接收者的位置和对声音的偏好，从声源中筛选接收者能听到的声音，组成接收者能听到的声源集合MRS，具体过程如下：

步骤1：根据接收者模型MR接收范围Rr，与每一个声源子声场模型MS的声源影响范围Rs做交集运算，如果接收者在声源的作用范围之内，并且声源也在接收者的接收范围之内，则将声源子声场模型MS加入到集合MRS中。

步骤2：根据传播环境声场模型ME的障碍物信息O、将MRS集合中MS的空间信息，与MR的空间信息组成计算参数(O，Ps，Pr)，进一步调整MRS集合中的MS。调整方法，包含但不限于基于声音衰减计算方法和基于声场建模得到MS中影响范围Rs。其中声音衰减计算方法可以参考“声学基础”和“理论声学”。调整后得到新的针对MR的影响范围Rs1，如MR不在Rs1的作用范围之内，将声源子声场MS从MRS集合中剔除。

步骤3：根据接收者模型MR对收听频率的设定，接收者对具有某些频率特性的声音排斥，根据这种频率特性，可以分辨出声音的类型，如人声、动物声、机械声、音乐声等，而声源子声场MS的视频特性中记录这这样的频率特性，和MRS集合中每一个MS的时频特性做比较，如果MS的视频特性符合MR排斥的频率特性，则将声源子声场MS从MRS集合中剔除。

步骤4：根据接收者模型MR的内容偏好设定，表明接收者喜欢哪些内容的声源或讨厌哪些内容的声源，比如接收者想听讲座，而不想听娱乐，则可设定这样的内容偏好。与声场中每一个声源子声场模型MS的内容信息组成计算参数(Cs，Cr)，对内容进行匹配，如果MS的内容是MR感兴趣的内容，且不在MRS集合中，则将MS加入到MRS集合中，如果MS的内容是MR讨厌的内容，且在MRS集合中，则将MS从MRS集合中剔除。

步骤5：根据接收者模型MR的声源偏好，接收者可以选定一些声源作为必须听到或必须听不到的声源，将不在MRS集合中，但被接收者选中的声源加入到MRS集合中，将在在MRS集合中，但被接收者排除的声源从MRS集合中剔除。

通过上述步骤1-5，服务器即可得到最终的声源子声场集合MRS。

第五步：服务器将MRS集合中的声源子声场提取出渲染所需的声音数据S和声源元数据Ms，元数据包括声源的位置、指向性，将传播环境声场的信息封装成渲染所需的传播环境元数据Mme。

第六步：接收者可以将自己所能听到的声音继续做渲染参数上的调整，如将某些声音的增益调整，或重新定位声源的位置，或将声音变调，对于本来不在接收范围之内但符合偏好的声源，必须做重定位设置，才能听到这些声音。客户端接收到接收者设置的调整之后，生成调整所需的参数，并将参数发送至服务器，服务器在接收到之后将这些互动信息封装成互动元数据Ma。

第七步：服务器将声源元数据Ms、传播环境元数据Mme和互动元数据Ma封装成渲染参数元数据M，和声音数据S一起发送到其他用户的客户端，以使得每个客户端均可以采用上述实施例三的方式进行音频编辑、环境渲染和空间渲染处理，输出最终符合用户设置的声音数据，并播放。

实施例五

在一个具体的实施例中，几名用户结合Webrtc进行虚拟环境下的多人实时视频语音通话，开展会议。Webrtc是一个支持实时语音和视频通话的API，很适合与互动音频处理方法结合，达到更好的语音通话效果。在本实施例中，服务器具体的音频信息的处理过程如下：

第一步：webrtc中开启多人实时视频语音通话，每个人的视频画面独占屏幕的一个区域。

第二步：客户端获得每个视频画面的位置Pos。

第三步：每一个用户在发言时，客户端会通过本地mic采集他的声音数据并发送至服务器，服务器据此生成压缩音频数据S。

第四步：用户终端将视频画面在屏幕中的位置Pos发送至服务器，服务器据此封装成声源子声场元数据Ms。

第五步：用户可以操作客户端UI，对每个上传的声音做强化、增益、EQ、重定位等互动操作，客户端接收到之后生成对应参数并将其发送至服务器，服务器接收到后会生成对每一个声音互动的元数据集合Ma，与声源声场元数据Ms封装成元数据集合M。

第六步：服务器将发言的用户的声音集合S和元数据集合M和A发送到其他用户的客户端，以使得每个客户端均可以采用上述实施例三的方式进行音频编辑、环境渲染和空间渲染处理，输出最终符合用户设置的声音数据，并播放。

实施例六

图5是本申请又一实施例提供的音频信息的处理方法的流程图，本申请实施例提供的音频信息的处理方法的执行主体可以是客户端，也可以是服务器，本实施例以执行主体为客户端对该音频信息的处理方法进行说明。如图5所示，该音频信息的处理方法可以包括以下步骤：

S301：接收服务器下发的与客户端对应的接收者的音频信息；音频信息包括音频信号，以及音频信号对应的元数据。

在本实施例中，音频信息是服务器根据声场模型，与虚拟环境中每个接收者进行匹配得到的，声场模型是根据虚拟环境中的声源的特征参数、环境特征参数和接收者的特征参数建立的。

在本实施例中，根据声场模型，与虚拟环境中每个接收者进行匹配得到音频信息的具体实施方式请详见实施例一，在此不做赘述。同样的，根据虚拟环境中的声源的特征参数、环境特征参数和接收者的特征参数建立声场模型的具体实施方式请详见实施例二，在此不做赘述。

在一个可能的实施方式中，还可以包括：获取客户端对应的接收者的特征参数，并将特征参数上报给服务器；其中，接收者的特征参数包括：接收者的三维信息的特征参数，或者接收者的三维信息的特征参数和接收者对声音偏好的特征参数，或者接收者的三维信息的特征参数和接收者的设备特征参数，或者接收者的三维信息的特征参数、接收者的设备特征参数和接收者对声音偏好的特征参数。

在本实施方式中，接收者进入虚拟环境之后，需选择其在虚拟环境中的位置(该位置即为接收者的三维信息)，以及收/发声的音频设备，如果该接收者有对声音的偏好，还会输入接收者对声音偏好。客户端收到接收者的三维信息、音频设备和/或接收者对声音偏好之后，会据此确定对应的接收者的三维信息的特征参数、接收者的设备特征参数和/或接收者对声音偏好的特征参数，并将这些特征参数发送至服务器，以便服务器根据这些特征参数建立接收者子声场。

在本实施方式中，通过上述步骤，可以使服务器建立的接收者子声场在考虑接收者自身需求的基础上，能够充分表征接收者接收声音的全部影响信息，便于后续根据传播环境子声场建立声场模型来获取接收者匹配的音频信息，此外，还能够实现接收者与声音的交互，提升用户使用体验。

S302：对于每个音频信息，根据音频信息中的元数据，对音频信息中音频信号进行空间渲染处理，以获取音频信息对应的具有环境声学效果的空间音频信号。

在本实施例中，具有环境声学效果的空间音频信号可以是双耳的空间音频信号，也可以是扬声器阵列的空间音频信号，也可以是其他音频信号，在此不做任何限制。优选的，音频信号的具体类型可以取决于接收者的设备特征参数，即接收者客户端采用哪种类型的音频设备。如果客户端的音频设备为耳机，则音频信号为双耳音频信号；如果客户端的音频设备为扬声器，则音频信号为扬声器阵列音频信号。

在一个可能的实施方式中，上述步骤S302中的根据音频信息中的元数据，对音频信息中音频信号进行空间渲染处理，以获取音频信息对应的具有环境声学效果的空间音频信号，可以包括：获取音频信息的元数据中与第二标签对应的元数据，并根据第二标签对应的元数据，对音频信号进行处理，以获取音频信息对应的空间音频信号；其中，第二标签对应的元数据表示对空间渲染的元数据。

在本实施方式中，可以根据空间渲染相关的元数据(第二标签对应的元数据)对音频信号进行空间渲染，以使处理得到的音频信号具备空间特性，即具备方向感和距离感。通过这样的设置，接收者听到渲染后的空间音频信号后即可感受到声音的来源方位和大致距离，即使处于虚拟环境也能够体验到与真实空间相适配的声音特点，提高了接收者在虚拟环境中的沉浸感和真实感。

在一个可能的实施方式中，上述步骤S302中的根据音频信息中的元数据，对音频信息中音频信号进行空间渲染处理，以获取音频信息对应的具有环境声学效果的空间音频信号，还可以包括：根据音频信息中元数据，对音频信息中音频信号进行环境渲染和空间渲染处理，以获取音频信息对应的具有环境声学效果的空间音频信号。

在本实施方式中，为了进一步提高接收者在虚拟环境中的沉浸感和真实感，在对音频信号进行空间渲染之前，可以首先根据环境渲染相关的元数据对音频信号进行环境渲染，使得最终渲染得到的音频信号为环境声学效果的空间音频信号。通过这样的设置，可以使最终获得的音频信号不仅能够充分考虑到传播环境对声音传递的影响，还具备空间特性，进一步提高了接收者在虚拟环境中的沉浸感和真实感。

在一个可能的实施方式中，根据音频信息中的元数据，对音频信息中音频信号进行环境渲染和空间渲染处理，以获取音频信息对应的具有环境声学效果的空间音频信号，可以包括：获取音频信息的元数据中与第一标签对应的元数据，并根据第一标签对应的元数据对音频信号进行处理，获取一级音频信号和对应的元数据；获取音频信息的元数据中与第二标签对应的元数据，并根据第二标签对应的元数据，以及一级音频信号对应的元数据，对一级音频信号进行处理，获取具有环境声学效果的空间音频信号；其中，第一标签对应的元数据表示对环境渲染的元数据；第二标签对应的元数据表示对空间渲染的元数据。

在本实施方式中，当客户端未接收到接收者输入的编辑信息时，客户端不需要根据编辑信息对应的第二渲染参数的元数据对音频信息进行个性化声音处理，直接根据环境渲染和空间渲染相关的元数据对音频信号进行环境渲染和空间渲染处理即可。

在本实施方式中，根据音频信息中的元数据，对音频信息中音频信号进行处理时，可以首先根据环境渲染相关的元数据对音频信号进行环境渲染，以使获得的一级音频信号充分考虑到传播环境对声音传递的影响，从而具备环境声学效果；然后根据空间渲染相关的元数据对一级音频信号进行空间渲染，以使处理得到的音频信号具备空间特性，即具备方向感和距离感。通过环境渲染和空间渲染处理，即可使最终渲染得到的音频信号为环境声学效果的空间音频信号，接收者听到渲染后的音频信号后即可感受到声音的来源方位和大致距离，即使处于虚拟环境也能够体验到与真实空间相适配的声音特点，提高了接收者在虚拟环境中的沉浸感和真实感。

在一个可能的实施方式中，该方法还可以包括：向服务器发送编辑信息，或者接收客户端对应的接收者输入的编辑信息；则根据音频信息中的元数据，对音频信息中音频信号进行环境渲染和空间渲染处理，以获取音频信息对应的具有环境声学效果的空间音频信号，可以包括：对于每个音频信息，根据音频信息中的元数据，对音频信息中音频信号进行音频编辑、环境渲染和空间渲染处理，或者进行环境渲染、音频编辑和空间渲染处理，以获取音频信息对应的具有环境声学效果的空间音频信号。

在本实施方式中，当客户端进行后处理时，客户端接收到对应的接收者输入的编辑信息之后，在进行渲染时，需要根据编辑信息对应的元数据对音频信息进行个性化声音处理，即音频编辑。当服务器进行后处理时，客户端接收到对应的接收者输入的编辑信息之后，会将编辑信息发送至服务器，以便服务器根据编辑信息对应的元数据对音频信息进行个性化声音处理，即音频编辑。在渲染过程中，可以先进行音频编辑，然后进行环境渲染和空间渲染处理，也可以先进行环境渲染，然后进行音频编辑和空间渲染处理。

在本实施方式中，编辑信息是接收者根据自身需求对声音处理的订制化的设置和调整，根据编辑信息对应的元数据对音频信息中音频信号进行音频编辑，可以充分考虑接收者的不同需求，对音频信号进行筛选和效果调整。通过对音频信息中音频信号进行音频编辑、环境渲染和空间渲染处理，或者进行环境渲染、音频编辑和空间渲染处理，不仅可以提升最终渲染获得的音频信号的真实性，提高接收者在虚拟环境中的沉浸感和真实感，还可以满足用户的特殊需求，实现接收者与声音的交互，提升用户使用体验。

在一个可能的实施方式中，根据音频信息中的元数据，对音频信息中音频信号进行音频编辑、环境渲染和空间渲染处理，或者进行环境渲染、音频编辑和空间渲染处理，以获取音频信息对应的具有环境声学效果的空间音频信号，可以包括：获取音频信息的元数据中与第三标签对应的元数据，并根据第三标签对应的元数据对音频信号进行处理，获取一级音频信号和对应的元数据；获取音频信息的元数据中与第一标签对应的元数据，并根据第一标签对应的元数据对一级音频信号进行处理，获取二级音频信号和对应的元数据；获取音频信息的元数据中与第二标签对应的元数据，并根据第二标签对应的元数据，以及二级音频信号对应的元数据，对二级音频信号进行处理，获取具有环境声学效果的空间音频信号；其中，第一标签对应的元数据表示对环境渲染的元数据；第二标签对应的元数据表示对空间渲染的元数据；第三标签对应的元数据表示对音频编辑的元数据。

在本实施方式中，根据音频信息中的元数据，对音频信息中音频信号进行处理时，可以首先根据音频编辑相关的元数据对音频信号进行音频编辑，以使处理得到的一级音频信号能够满足接收者对声音的需求；然后根据环境渲染相关的元数据对一级音频信号进行环境渲染，以使处理得到的二级音频信号充分考虑到传播环境对声音传递的影响；最后根据空间渲染相关的元数据对二级音频信号进行空间渲染，以使处理得到的音频信号具备空间特性，即具备方向感和距离感。通过对音频信息中音频信号进行音频编辑、环境渲染和空间渲染处理，使得最终渲染得到的音频信号不仅具有环境声学效果，还能够满足接收者自身需求。

在本实施方式中，根据音频信息中的元数据，对音频信息中音频信号进行处理时，通过先对音频信号进行音频编辑，再进行环境渲染和空间渲染处理，可以首先根据用户需求对部分音频信号进行筛选，减少了后续进行环境渲染和空间渲染处理时的工作量。

在一个可能的实施方式中，根据第一标签对应的元数据对一级音频信号进行处理，获取获取二级音频信号和对应的元数据，可以包括：根据第一标签对应的元数据，获取一级音频信号中的直达声信号和直达声信号对应的元数据，一级音频信号中的前期反射声信号和前期反射声信号对应的元数据，一级音频信号中的后期反射声和后期反射声信号对应的元数据；根据直达声信号、前期反射声信号和后期反射声信号确定二级音频信号；根据直达声信号对应的元数据、前期反射声信号对应的元数据和后期反射声信号对应的元数据，确定二级音频信号对应的元数据。

在本实施方式中，在对音频编辑处理后得到的一级音频信号进行环境渲染处理时，为了能够使处理后得到的二级音频信号充分考虑到传播环境对声音传递的影响，使二级音频信号更贴合实际声音信号的特性，可以分别获取一级音频信号中的直达声信号、前期反射声信号和后期反射声信号，及其各自对应的元数据，并根据直达声信号、前期反射声信号和后期反射声信号，及其各自对应的元数据，分别确定二级音频信号，以及二级音频信号对应的元数据。

在另一个可能的实施方式中，根据音频信息中的元数据，对音频信息中音频信号进行音频编辑、环境渲染和空间渲染处理，或者进行环境渲染、音频编辑和空间渲染处理，以获取音频信息对应的具有环境声学效果的空间音频信号，可以包括：获取音频信息的元数据中与第一标签对应的元数据，并根据第一标签对应的元数据对音频信号进行处理，获取一级音频信号和对应的元数据；获取音频信息的元数据中与第三标签对应的元数据，并根据第三标签对应的元数据对一级音频信号进行处理，获取二级音频信号和对应的元数据；获取音频信息的元数据中与第二标签对应的元数据，并根据第二标签对应的元数据，以及二级音频信号对应的元数据，对二级音频信号进行处理，获取具有环境声学效果的空间音频信号；其中，第一标签对应的元数据表示对环境渲染的元数据；第二标签对应的元数据表示对空间渲染的元数据；第三标签对应的元数据表示对音频编辑的元数据。

在本实施方式中，根据音频信息中的元数据，对音频信息中音频信号进行处理时，可以首先根据环境渲染相关的元数据对音频信号进行环境渲染，以使处理得到的一级音频信号充分考虑到传播环境对声音传递的影响；然后根据音频编辑相关的元数据对一级音频信号进行音频编辑，以使处理得到的二级音频信号能够满足接收者对声音的需求；最后根据空间渲染相关的元数据对二级音频信号进行空间渲染，以使处理得到的音频信号具备空间特性，即具备方向感和距离感。通过对音频信息中音频信号进行音频编辑、环境渲染和空间渲染处理，使得最终渲染得到的音频信号不仅具有环境声学效果，还能够满足接收者自身需求。

在本实施方式中，根据音频信息中的元数据，对音频信息中音频信号进行处理时，通过先对音频信号进行环境渲染，再进行音频编辑和空间渲染处理，可以首先根据环境渲染处理使得到的一级音频信号充分考虑到传播环境对声音传递的影响。如果音频编辑中对音频信号的声音传递过程有特殊需求，通过这样的方式，可以提高音频编辑的准确性和全面性，使最终得到的音频信号更加符合接收者需求。

在一个可能的实施方式中，根据第一标签对应的元数据对音频信号进行处理，获取一级音频信号和对应的元数据，可以包括：根据第一标签对应的元数据，获取音频信号中的直达声信号和直达声信号对应的元数据，音频信号中的前期反射声信号和前期反射声信号对应的元数据，音频信号中的后期反射声和后期反射声信号对应的元数据；根据直达声信号、前期反射声信号和后期反射声信号确定一级音频信号；根据直达声信号对应的元数据、前期反射声信号对应的元数据和后期反射声信号对应的元数据，确定一级音频信号对应的元数据。

在本实施方式中，在对音频信号进行环境渲染处理时，为了能够使处理后得到的一级音频信号充分考虑到传播环境对声音传递的影响，使一级音频信号更贴合实际声音信号的特性，可以分别获取音频信号中的直达声信号、前期反射声信号和后期反射声信号，及其各自对应的元数据，并根据直达声信号、前期反射声信号和后期反射声信号，及其各自对应的元数据，分别确定一级音频信号，以及一级音频信号对应的元数据。

在一个可能的实施方式中，第三标签对应的元数据表示对音频自身编辑的元数据，可以包括如下一种或者几种组合：声源增益调整、声源均衡调整、声源滤波调整、声源频域强化调整、声源重定位调整、声源频域背景化调整和声源变调调整。

在本实施方式中，对音频自身编辑的元数据是根据接收者输入的编辑信息得到的，是针对接收者根据自身需求对声音处理的设置和调整的元数据。

在本实施方式中，声源增益调整指的是，对某个或某些声源进行响度增强处理；声源均衡调整指的是，对某个或某些声源进行EQ处理；声源滤波调整指的是，对某个或某些声源进行滤波处理；声源频域强化调整指的是，对某个或某些声源进行降噪处理；声源重定位调整指的是，对某个或某些声源进行重新定位，即改变声源位置，使原本能听到的声源听不到或者使原本听不到的声源能听到；声源频域背景化调整指的是，对某个或某些声源进行响度减弱处理；声源变调调整指的是，对某个或某些声源进行提高声调或者降低声调处理。

在本实施方式中，通过上述第三标签对应的元数据对音频信号进行音频编辑处理，可以按照接收者自身需求对声音数据进行筛选和效果调整，从而使经音频编辑得到的音频信号满足接收者的不同需求，实现接收者与声音的交互，提升用户使用体验。

在一个可能的实施方式中，第一标签对应的元数据表示对环境渲染的元数据，可以包括如下一种或者几种组合：声源位置、声源指向性、虚拟源位置、虚拟环境空间大小，虚拟环境墙壁反射系数、吸声系数、声屏障、隔音系数、空气吸收系数、环境温度和环境湿度。

在本实施方式中，虚拟源位置指的是对应声源位置的镜像位置；虚拟环境墙壁反射系数指的是虚拟环境墙壁对声音的反射率；吸声系数指的是虚拟环境墙壁对声音的吸收率；声屏障指的是障碍物对声音的阻挡；隔音系数声指的是障碍物度声音的阻隔率；空气吸收系数指的是空气对声音的吸收率。

在本实施方式中，通过上述第一标签对应的元数据对音频信号进行环境渲染处理，可以充分考虑传播环境对音频信号传递的影响因素，使环境渲染处理更加贴合真实环境中声音的传递过程，从而使环境渲染处理得到的音频信号更具真实感。

在一个可能的实施方式中，第二标签对应的元数据表示对空间渲染的元数据，可以包括如下一种或者几种组合：声源位置、声源指向性、接收者位置和接收者朝向。

在本实施方式中，可以根据声源位置和接收者位置确定音频信号传递的距离，并根据声源指向和接收者朝向确定音频信号传递的方向。

在本实施方式中，通过上述第二标签对应的元数据对音频信号进行空间渲染处理，可以使空间渲染处理后得到的音频信号具备方向感和距离感，从而使接收者听到渲染后的音频信号后可以感受到声音的来源方位和大致距离，进一步提高了渲染后的音频信号的真实感。

在一个可能的实施方式中，空间渲染的元数据还可以包括：设备的声学特性参数元数据和设备的布局信息元数据，其中；设备的声学特性参数元数据包括如下一种或者几种：频响曲线、相位曲线、灵敏度曲线；设备的布局信息元数据包括如下一种或者几种：扬声器阵列的布局方式和扬声器个数。

在本实施方式中，当客户端进行后处理时，客户端可以直接获取其内设置的音频播放设备的各种数值，从而得到对应的频响曲线、相位曲线、灵敏度曲线、扬声器阵列的布局方式和扬声器个数等设备参数。当服务器进行后处理时，客户端可以将频响曲线、相位曲线、灵敏度曲线、扬声器阵列的布局方式和扬声器个数等设备参数发送至服务器。

在本实施方式中，若元数据为耳机对应的频响曲线、和/或相位曲线、和/或灵敏度曲线，对应的播放设备为耳机，则经过空间渲染后输出的音频信号应为双耳空间音频信号；若元数据为扬声器对应的频响曲线、和/或相位曲线、和/或灵敏度曲线，或者设备的布局信息元数据，对应的播放设备为扬声器，则经过空间渲染后输出的音频信号应为扬声器阵列的空间音频信号。

在本实施方式中，根据频响曲线、相位曲线和灵敏度曲线可以确定空间渲染处理后的双耳音频信号的播放方式；根据扬声器阵列的布局方式和扬声器个数可以确定空间渲染处理后的扬声器阵列音频信号的播放方式。

在本实施方式中，空间渲染的具体方式取决于客户端输出的音频信号的类型，而客户端输出的音频信号的类型取决于客户端音频播放设备的类型。因此，通过在空间渲染的元数据中添加设备的相关元数据，即设备的声学特性参数元数据和设备的布局信息元数据，使得在进行空间渲染处理时可以首先据此确定接收者的客户端的音频播放设备的类型，之后根据设备类型确定输出的音频信号的类型，最后根据音频信号的类型最终确定空间渲染的具体方式。通过这样的设置，可以使经空间渲染处理得到的音频信号能够与接收者的客户端的音频播放设备相适配，提高音频信号的输出和播放质量。

在一个可能的实施方式中，获取音频信息的元数据中与第二标签对应的元数据，并根据第二标签对应的元数据，以及一级音频信号对应的元数据或者二级音频信号对应的元数据，对一级音频信号或者二级音频信号进行处理，获取具有环境声学效果的空间音频信号，可以包括：获取音频信息的元数据中与第二标签对应的元数据，并根据第二标签对应的元数据，以及一级音频信号对应的元数据或者二级音频信号对应的元数据，对一级音频信号或者二级音频信号进行基于头相关传输函数进行的虚拟渲染处理，或者对一级音频信号或者二级音频信号进行PAN和基于头相关传输函数进行的虚拟渲染处理，以获取具有环境声学效果的双耳空间音频信号。

在本实施方式中，在渲染过程中，若未进行音频编辑处理，只进行了环境渲染和空间渲染处理，则空间渲染处理过程可以是：获取音频信息的元数据中与第二标签对应的元数据，并根据第二标签对应的元数据，以及一级音频信号对应的元数据，对一级音频信号进行基于头相关传输函数进行的虚拟渲染处理，或者进行PAN和基于头相关传输函数进行的虚拟渲染处理，以获取具有环境声学效果的双耳空间音频信号。

或者，在渲染过程中，若进行音频编辑、环境渲染和空间渲染处理，则空间渲染处理过程可以是：获取音频信息的元数据中与第二标签对应的元数据，并根据第二标签对应的元数据，以及二级音频信号对应的元数据，对二级音频信号进行基于头相关传输函数进行的虚拟渲染处理，或者进行PAN和基于头相关传输函数进行的虚拟渲染处理，以获取具有环境声学效果的双耳空间音频信号。

在本实施方式中，当设备相关的元数据为设备的声学特性参数元数据时，说明经空间渲染处理后的音频信号应该为双耳空间音频信号。则可以根据环境渲染处理后产生的元数据，以及空间渲染相关的元数据，对环境渲染处理后产生的音频信号进行基于头相关传输函数进行的虚拟渲染处理，或者进行PAN和基于头相关传输函数(HRTF)进行的虚拟渲染处理，以获取具有环境声学效果的双耳空间音频信号。通过这样的设置，可以使得经过空间渲染处理后得到的音频信号，不仅具备与真实环境下的声音传递相适配的环境声学效果，还与接收者的客户端的音频播放设备(耳机)相适配，提高了音频信号的输出和播放质量。

在另一个可能的实施方式中，获取音频信息的元数据中与第二标签对应的元数据，并根据第二标签对应的元数据，以及一级音频信号对应的元数据或者二级音频信号对应的元数据，对一级音频信号或者二级音频信号进行处理，获取具有环境声学效果的空间音频信号，可以包括：获取音频信息的元数据中与第二标签对应的元数据，并根据第二标签对应的元数据，以及一级音频信号对应的元数据或者二级音频信号对应的元数据，对一级音频信号或者二级音频信号进行如下一种或者几种方式的组合方式进行处理：PAN，波场合成技术、高阶Ambisonics技术和波束成形技术，以获取具有环境声学效果的扬声器阵列的空间音频信号。

在本实施方式中，在渲染过程中，若未进行音频编辑处理，只进行了环境渲染和空间渲染处理，则空间渲染处理过程可以是：获取音频信息的元数据中与第二标签对应的元数据，并根据第二标签对应的元数据，以及一级音频信号对应的元数据，对一级音频信号进行如下一种或者几种方式的组合方式进行处理：PAN，波场合成技术(WFS)、高阶Ambisonics技术和波束成形技术，以获取具有环境声学效果的扬声器阵列的空间音频信号。

或者，在渲染过程中，若进行音频编辑、环境渲染和空间渲染处理，则空间渲染处理过程可以是：获取音频信息的元数据中与第二标签对应的元数据，并根据第二标签对应的元数据，以及二级音频信号对应的元数据，对二级音频信号进行如下一种或者几种方式的组合方式进行处理：PAN，波场合成技术、高阶Ambisonics技术(HOA)和波束成形技术(Beam forming)，以获取具有环境声学效果的扬声器阵列的空间音频信号。

在本实施方式中，PAN处理、基于头相关传输函数进行的虚拟渲染处理、波场合成技术、高阶Ambisonics技术和波束成形技术等均是现有技术，在此不做赘述。

在本实施方式中，当设备相关的元数据为设备的布局信息元数据时，说明经空间渲染处理后的音频信号应该为扬声器阵列的空间音频信号。则可以根据环境渲染处理后产生的元数据，以及空间渲染相关的元数据，对环境渲染处理后产生的音频信号进行PAN，波场合成技术、高阶Ambisonics技术或波束成形技术处理，以获取具有环境声学效果的扬声器阵列的空间音频信号。通过这样的设置，可以使得经过空间渲染处理后得到的音频信号，不仅具备与真实环境下的声音传递相适配的环境声学效果，还与接收者的客户端的音频播放设备(扬声器)相适配，提高了音频信号的输出和播放质量。

S303：将每个音频信息对应的空间音频信号进行混音处理，以获取并播放对应的输出数据。

在本实施例中，步骤S301-S303可以是，客户端对服务器预处理后的数据进行后处理的过程，经过后处理得到数据即可通过客户端的音频设备播放给接收者。或者，步骤S301-S303也可以是，服务器进行后处理的过程，服务器将得到的输出数据发送至客户端，客户端播放输出数据。

在本实施例中，每个音频信息均对应一个声源，对于每个接收者而言，一般需要同时接收多个声源传递的声音。因此，针对每个接收者，可以分别对每个声源对应的音频信息进行处理得到音频信号，然后对所有声源的音频信号进行混音处理，以使客户端播放的输出数据能够根据虚拟场景的特点产生适合的空间效果，与真实空间中声音的传递特点和接收者听感相适配，进一步提高了接收者在虚拟环境中的沉浸感和真实感。

在本实施例中，在接收服务器下发的与客户端对应的接收者的音频信息之后，对于每个音频信息，可以根据音频信息中的元数据，对音频信息中音频信号进行环境渲染和空间渲染处理，以获取音频信息对应的具有环境声学效果的空间音频信号；并将每个音频信息对应的处理后的音频信号进行混音处理，以获取并播放对应的输出数据。通过这样的设置，根据音频信息中的元数据，对音频信息中音频信号进行环境渲染和空间渲染处理之后，还可使处理后的音频信号充分考虑到传播环境对声音传递的影响，并且具备空间特性，即具备方向感和距离感。接收者听到渲染后的音频信号后即可感受到声音的来源方位和大致距离，即使处于虚拟环境也能够体验到与真实空间相适配的声音特点，提高了接收者在虚拟环境中的沉浸感和真实感。进一步的，考虑到对于每个接收者而言，一般需要同时接收多个声源传递的声音，因此，通过将每个音频信息对应的处理后的音频信号进行混音处理，可以使混音处理后的输出数据能够根据虚拟场景的特点产生适合的混响效果，与真实空间中声音的传递特点和接收者听感相适配，进一步提高了接收者在虚拟环境中的沉浸感和真实感。

下面以几个具体的实施例对本申请实施例六所述的应用于服务器的音频信息的处理方法(后处理)进行阐述。

实施例七

在一个具体的实施例中，在如实施例三或五所示的虚拟会议室环境中，一般需要提升主讲人的声音清晰度，而其他声音降低，在该渲染需求下，客户端只需进行增益处理和PAN处理。在本实施例中，客户端具体的音频信息的处理过程如下：

第一步：客户端接收所有待处理的输入音频信息X101(i)，i＝1，2，...，N，N为待处理音频个数，其中包含音频信号S101(i)和元数据M101(i)，其中i＝1是目标声，i≠1是其他声音。这里的音频信号和元数据均由服务器采用上述实施例一和实施例二的方式确定，并发送至客户端。

第二步：客户端分析元数据M101(i)，其中包含音频增益的元数据Gain101(i)，根据目标需求，Gain101(1)>1；Gain101(i)<1,i≠1。根据音频增益的元数据Gain101(i)，对所有输入的音频信号S101(i)进行增益处理，得到一级处理信号S102(i)，i＝1，2，....，N，其中S102(i)＝Gain101(i)*S101(i)。

第三步：客户端根据元数据M101(i)中PAN的相关元数据PAN101(i)，对所有一级音频数据S102(i)进行PAN处理，得到最终双耳音频数据S103(j)，j＝1，2。

实施例八

在一个具体的实施例中，在如实施例四所示的虚拟文化广场环境中，由于环境比较嘈杂，一般需要提高目标声识别，减弱其他声音。在该渲染需求下，客户端需要结合增益、频率调整、混响技术中的一种或多种，并且在后续与PAN和空间虚拟渲染相结合，提高目标声识别，达到类似“鸡尾酒会效应”。在本实施例中，客户端具体的音频信息的处理过程如下：

第一步：客户端接收所有待处理的输入音频信息X201(i)，i＝1，2，...，N，N为待处理音频个数，其中包含音频信号S201(i)和元数据M201(i)，其中i＝1是目标声，i≠1是其他声音。这里的音频信号和元数据均由服务器采用上述实施例一和实施例二的方式确定，并发送至客户端。

第二步：客户端分析元数据M201(i)，其中包含对目标声增益处理的元数据Gain201(1)和频率调整元数据MF201(1)；以及针对其他各种声音处理的元数据MO201(i)，i＝2，3，...，N，其中MO201(i)可以包含但不限于混响元数据MR201(i)和/或频率调整的元数据MF202(i)。

第三步：客户端根据目标声音的增益元数据Gain201(1)以及频率调整元数据MF201(1)对音频信号S201(1)进行处理，得到目标声音信号的一级处理信号S202(1)；

增益处理过程如实施例七的第二步所示；频率调整，可以使用但不限于EQ、滤波、频域滤波处理等，用于提升目标声的响度和亮度；EQ、时域滤波、频率滤波均为现有技术，此处不再赘述。

第四步：客户端根据其他声音的元数据MO(i)，i＝2，3，...，N对音频信号S201(i)进行处理，得到其他声音信号的一级处理信号S202(i)，i＝2，3，...，N；元数据MO201(i)中包含但不限于混响元数据MR(i)和频率调整的元数据MF202(i)。

频率调整，可以使用但不限于EQ、滤波、频域滤波处理等，用于降低其他声的响度/亮度/清晰度等，使得声音背景化；混响处理，降低直达声/混响的比例，同样使得声音背景化；混响处理可以是人工混响、采样混响等，也为现有技术，此处不再赘述。

第五步：客户端对目标声音信号的一级处理信号S202(1)进行空间音频处理，空间音频处理方法，简要概述为通过元数据M201(1)中声音的空间位置元数据MP201(1)，一级目标听众的头部跟踪元数据MS201(1)，进行元数据之间的处理后，得到虚拟渲染所需要的空间数据Sensor201(1)；然后根据Sensor201(1)从HRTF数据库中选取合适的数据，进行渲染处理，得到目标声音S201(1)的双耳渲染信号S203(1，j)，j＝1，2。

第六步：客户端对其他声音一级处理信号S202(i)，i＝2，3，...，N，进行PAN处理，得到最终双耳音频数据S203(i，j)，i＝2，3，...，N,j＝1，2。

第七步：客户端根据上述第五步和第六步中算出的双耳音频信号进行叠加处理，得到最终用于听众耳机设备播放的双耳信号S204(j)，j＝1，2。

实施例九

在一个具体的实施例中，在如实施例四所示的虚拟文化广场环境中，由于环境比较嘈杂，人数较多，一同进入的游客可能走散，彼此听不到声音，因此，可能需要屏蔽目标声，并对其他声音进行高精度定位。该方法结合屏蔽方法，以及后续空间虚拟渲染方法，既能屏蔽目标声，也能对其他声进行空间定位的功能。在本实施例中，客户端具体的音频信息的处理过程如下：

第一步：客户端接收所有待处理的输入音频信息X301(i)，i＝1，2，...，N，N为待处理音频个数，其中包含音频信号S301(i)和元数据M301(i)，其中i＝1是目标屏蔽声，i≠1是其他需要空间渲染定位的声音。这里的音频信号和元数据均由服务器采用上述实施例一和实施例二的方式确定，并发送至客户端。

第二步：客户端分析元数据M301(i)，其中包含对目标屏蔽声的控制元数据MP；以及针对其他声音处理的空间元数据MS(i)，i＝2，3，...，N，其中MS(i)可以包含但不限于其他各个声音的6dof信息(空间位置和空间旋转角)。

第三步：客户端根据目标声音的屏蔽控制元数据MP＝1时，则代表屏蔽该声音，即不给下一处理模块发送任何信号。

第四步：客户端根据其他声音的元数据MO301(i)，i＝2，3，...，N对音频信号S301(i)进行处理，基于本实施例的设计，该部分信号不做任何处理，直接把S301(i)，i＝2，3，...，N传输给下一个信号处理模块。

第五步：客户端接收第四步中传输过来的信号S301(i)，i＝2，3，...，N，对处理信号S301(i)，i＝2，3，...，N进行空间音频处理，得到目标声音S301(1)的双耳渲染信号S302(i，j)，j＝1，2。

第六步：客户端根据第五步算出的双耳渲染信号S302(i，j)，i＝2，...，N，j＝1，2，进行叠加处理，得到最终用于听众耳机设备播放的双耳信号S303(j)，j＝1，2。

实施例十

在一个具体的实施例中，在如实施例四所示的虚拟文化广场环境中，为了提高真实感和沉浸感，某游客的客户端选择了扬声器播放的方式，则客户端具体的音频信息的处理过程如下：

第一步，客户端接收待处理的输入音频信息X801(i),i＝1,2,...,N,N为待处理音频个数，其中包含音频信号S801(i)和元数据M801(i)。这里的音频信号和元数据均由服务器采用上述实施例一和实施例二的方式确定，并发送至客户端。

第二步，客户端主动或者自动根据回放设备，生成设备相关的元数据MK(i),i＝1,2,...,N,N为待处理音频个数。该元数据MK包含渲染的方法MKM，以及设备的布局信息MKB。当使用扬声器渲染时，可以但不限于设置MKM＝1时，代表使用WFS渲染方式；MKM＝2时，代表使用HOA渲染方式；MKM＝3时，代表使用Beam forming渲染方式；MKM＝4时，代表使用常规PAN方式。

第三步，接收第二步中设备相关的元数据MK(i)(包含MKM和MKB)，以及第一步中输入音频信息X801(i)中的元数据M801(i)，对音频信号S801(i)进行音频处理，得到处理后的音频信号S803(i，j)，i＝1，2，...，N，j＝1，2，...，M，N为待处理音频个数，M为扬声器个数。处理具体包括：

MKM＝1时，使用WFS(波场合成)技术，对音频信号进行处理，得到各个扬声器中需要播放的信号S8031(i，j)，j＝1，2，...，M1，M1为波场合成技术使用的扬声器个数，M1≤M，未使用到的扬声器对应的信号置0；

MKM＝2时，使用HOA技术，对音频信号进行处理，得到各个扬声器中需要播放的信号S8032(i，j)，j＝1，2，...，M2，M2为HOA技术使用的扬声器个数；M2≤M，未使用到的扬声器对应的信号置0；

MKM＝3时，使用Beam forming技术，对音频信号进行处理，得到各个扬声器中需要播放的信号S8033(i，j)，j＝1，2，...，M3，M3为波束成形技术使用的扬声器个数；M3≤M，未使用到的扬声器对应的信号置0；

MKM＝4时，使用PAN技术，对音频信号进行处理，得到各个扬声器中需要播放的信号S8034(i，j)，j＝1，2，...，M4，M4为PAN使用的扬声器个数，此时扬声器布局可以是常规标准的单声道、立体声、5.1、5.1.2、5.1.4、7.1、7.1.2、7.1.4等等的布局，也可以是用户自定义的扬声器布局；M4≤M，未使用到的扬声器对应的信号置0。

S803(i，j)包含S8031(i，j)、S8032(i，j)、S8033(i，j)、S8034(i，j)中的一种，或多种的组合。

上述的扬声器阵列的处理方法可以采用现有技术，此处不再详细展开。

第四步，把上述第三步中所有扬声器阵列信号S803(i，j)进行混音处理，得到最终扬声器阵列信号S804(j)，j＝1，2，...，M。

图6为本申请一实施例的服务器的结构示意图，如图6所示，该服务器包括：第一收发模块61和第一处理模块62。第一收发模块61，用于获取虚拟环境中的声源的特征参数、环境特征参数和接收者的特征参数；根据声源的特征参数、环境特征参数和接收者的特征参数，建立声场模型。第一处理模块62，用于根据声场模型，分别选取与虚拟环境中每个接收者匹配的音频信息，并将音频信息发送给与接收者对应的客户端，以供客户端根据音频信息中的元数据，对音频信息中音频信号进行环境渲染和空间渲染处理，以获取并播放对应的输出数据；或者，并对每个接收者匹配的音频信息，根据音频信息中的元数据，对音频信息中音频信号进行空间渲染处理，以获取音频信息对应的空间音频信号，将每个音频信息对应的空间音频信号进行混音处理后得到的输出数据发送给客户端进行播放。一个实施方式中，服务器具体实现功能的描述可以参见实施例一中的步骤S101-S103，以及实施例二中的步骤S201-S204，在此不做赘述。

在一个实施方式中，第一收发模块61还可以用于：根据声源的特征参数，建立声源子声场；根据环境特征参数，建立传播环境子声场；根据接收者的特征参数，建立接收者子声场；根据声源子声场、传播环境子声场和接收者子声场，建立声场模型。一个实施方式中，具体实现功能的描述可以参见步骤S201-S204所述。

在一个实施方式中，第一收发模块61还可以用于：获取客户端发送的编辑信息；则根据接收者的特征参数，建立接收者子声场，可以包括：根据接收者的特征参数以及编辑信息，建立接收者子声场。一个实施方式中，具体实现功能的描述可以参见步骤S203所述。

在一个实施方式中，第一处理模块62还可以用于：根据声源子声场、传播环境子声场，和接收者子声场，将声源子声场转换至接收者子声场，以获取声场模型，使得声场模型中每个接收者根据接收者对应的环境的特征参数和接收者的特征参数与声源子声场中的部分声源建立匹配关系；或者使得声场模型中每个接收者根据接收者对应的环境的特征参数、接收者的特征参数和编辑信息，与声源子声场中的部分声源建立匹配关系。一个实施方式中，具体实现功能的描述可以参见步骤S103所述。

在一个实施方式中，第一处理模块62还可以用于：根据声场模型，分别选取与虚拟环境中每个接收者匹配的声音数据，以及声音数据对应的第一渲染参数；并分别根据每个接收者对应的声音数据和第一渲染参数，获取每个接收者对应的音频信息；其中，音频信息中包括与声音数据对应的音频信号，以及分别与第一渲染参数对应的元数据。一个实施方式中，具体实现功能的描述可以参见步骤S103所述。

在一个实施方式中，第一处理模块62还可以用于：根据声场模型，分别选取与虚拟环境中每个接收者匹配的声音数据，以及声音数据对应的第一渲染参数和第二渲染参数；并分别根据每个接收者对应的声音数据、第一渲染参数和第二渲染参数，获取每个接收者对应的音频信息；其中，音频信息中包括与声音数据对应的音频信号，以及分别与第一渲染参数和第二渲染参数对应的元数据。一个实施方式中，具体实现功能的描述可以参见步骤S103所述。

在一个实施方式中，第一收发模块61还可以用于：确定虚拟环境的三维环境信息和虚拟环境中物体的组成材质信息；根据虚拟环境中物体的组成材质信息，确定虚拟环境中物体对声音传播的第一影响的参数；其中，第一影响的参数包括反射率、散射率和/或吸收率；根据虚拟环境的三维环境信息、以及虚拟环境中物体的组成材质信息对应的第一影响的参数，建立传播环境子声场。一个实施方式中，具体实现功能的描述可以参见步骤S202所述。

在一个实施方式中，第一收发模块61还可以用于：根据虚拟环境中环境湿度和/或环境温度，获取虚拟环境中的传播介质对声音传播的第二影响的参数；其中，第二影响的参数包括阻尼和衰减；则根据虚拟环境的三维环境信息、以及虚拟环境中物体的组成材质信息对应的第一影响的参数，建立传播环境子声场，可以包括：根据虚拟环境的三维环境信息、虚拟环境中物体的组成材质信息对应的第一影响的参数，以及传播介质对应第二影响的参数，建立传播环境子声场。一个实施方式中，具体实现功能的描述可以参见步骤S202所述。

在一个实施方式中，第一收发模块61还可以用于：根据获取的虚拟环境中每个接收者的三维信息的特征参数，或者每个接收者的三维信息的特征参数和设备特征参数，建立接收者子声场；其中，三维信息的特征参数包括如下一种或者几种的组合：接收者位置和接收者声音接收范围，设备特征参数包括如下一种或者几种的组合：频响曲线、相位曲线、灵敏度曲线、扬声器阵列的布局方式和扬声器个数。一个实施方式中，具体实现功能的描述可以参见步骤S203所述。

在一个实施方式中，第一收发模块61还可以用于：获取虚拟环境中每个接收者对声音偏好的特征参数；则根据获取的虚拟环境中每个接收者的三维信息的特征参数，或者每个接收者的三维信息的特征参数和设备特征参数，建立接收者子声场，可以包括：根据获取的虚拟环境中每个接收者的三维信息的特征参数以及每个接收者对声音偏好的特征参数，或者每个接收者的三维信息的特征参数和设备特征参数，以及每个接收者对声音偏好的特征参数，建立接收者子声场；其中，声音偏好的特征参数包括如下一种或者几种的组合：接收者心理声学偏好、接收者声源偏好和接收者内容偏好。一个实施方式中，具体实现功能的描述可以参见步骤S203所述。

图7为本申请另一实施例的服务器的结构示意图，如图7所示，该服务器包括：处理器101，以及与处理器101通信连接的存储器102；存储器102存储计算机执行指令；处理器101执行存储器102存储的计算机执行指令，实现上述各方法实施例中音频信息的处理方法的步骤。

在上述服务器中，存储器102和处理器101之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线连接。存储器102中存储有实现数据访问控制方法的计算机执行指令，包括至少一个可以软件或固件的形式存储于存储器102中的软件功能模块，处理器101通过运行存储在存储器102内的软件程序以及模块，从而执行各种功能应用以及数据处理。

存储器102可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(ProgrammableRead-Only Memory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，简称：EPROM)，电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory，简称：EEPROM)等。其中，存储器102用于存储程序，处理器101在接收到执行指令后，执行程序。进一步地，上述存储器102内的软件程序以及模块还可包括操作系统，其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。

处理器101可以是一种集成电路芯片，具有信号的处理能力。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(Network Processor，简称：NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请的一实施例还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现本申请实施例一和实施例二各方法所述的步骤。

图8为本申请一实施例的客户端的结构示意图，如图8所示，该客户端包括：第二收发模块81和第二处理模块82。第二收发模块81，用于接收服务器下发的与客户端对应的接收者的音频信息；音频信息包括音频信号，以及音频信号对应的元数据；其中，音频信息是服务器根据声场模型，与虚拟环境中每个接收者进行匹配得到的，声场模型是根据虚拟环境中的声源的特征参数、环境特征参数和接收者的特征参数建立的。第二处理模块82，用于对于每个音频信息，根据音频信息中的元数据，对音频信息中音频信号进行空间渲染处理，以获取音频信息对应的空间音频信号；将每个音频信息对应的空间音频信号进行混音处理，以获取并播放对应的输出数据。一个实施方式中，客户端具体实现功能的描述可以参见实施例三中的步骤S301-S303，在此不做赘述。

在一个实施方式中，第二处理模块82还可以用于：获取音频信息的元数据中与第二标签对应的元数据，并根据第二标签对应的元数据，对音频信号进行处理，以获取音频信息对应的空间音频信号；其中，第二标签对应的元数据表示对空间渲染的元数据。一个实施方式中，具体实现功能的描述可以参见步骤S302所述。

在一个实施方式中，第二处理模块82还可以用于：根据音频信息中元数据，对音频信息中音频信号进行环境渲染和空间渲染处理，以获取音频信息对应的具有环境声学效果的空间音频信号。一个实施方式中，具体实现功能的描述可以参见步骤S302所述。

在一个实施方式中，第二处理模块82还可以用于：获取音频信息的元数据中与第一标签对应的元数据，并根据第一标签对应的元数据对音频信号进行处理，获取一级音频信号和对应的元数据；获取音频信息的元数据中与第二标签对应的元数据，并根据第二标签对应的元数据，以及一级音频信号对应的元数据，对一级音频信号进行处理，获取具有环境声学效果的空间音频信号；其中，第一标签对应的元数据表示对环境渲染的元数据；第二标签对应的元数据表示对空间渲染的元数据。一个实施方式中，具体实现功能的描述可以参见步骤S302所述。

在一个实施方式中，第二收发模块81还可以用于向服务器发送编辑信息，或者接收客户端对应的接收者输入的编辑信息；则第二处理模块82还可以用于：对于每个音频信息，根据音频信息中的元数据，对音频信息中音频信号进行音频编辑、环境渲染和空间渲染处理，或者进行环境渲染、音频编辑和空间渲染处理，以获取音频信息对应的具有环境声学效果的空间音频信号。一个实施方式中，具体实现功能的描述可以参见步骤S302所述。

在一个实施方式中，第二处理模块82还可以用于：获取音频信息的元数据中与第三标签对应的元数据，并根据第三标签对应的元数据对音频信号进行处理，获取一级音频信号和对应的元数据；获取音频信息的元数据中与第一标签对应的元数据，并根据第一标签对应的元数据对一级音频信号进行处理，获取二级音频信号和对应的元数据；获取音频信息的元数据中与第二标签对应的元数据，并根据第二标签对应的元数据，以及二级音频信号对应的元数据，对二级音频信号进行处理，获取具有环境声学效果的空间音频信号；其中，第一标签对应的元数据表示对环境渲染的元数据；第二标签对应的元数据表示对空间渲染的元数据；第三标签对应的元数据表示对音频编辑的元数据。一个实施方式中，具体实现功能的描述可以参见步骤S302所述。

在一个实施方式中，第二处理模块82还可以用于：获取音频信息的元数据中与第一标签对应的元数据，并根据第一标签对应的元数据对音频信号进行处理，获取一级音频信号和对应的元数据；获取音频信息的元数据中与第三标签对应的元数据，并根据第三标签对应的元数据对一级音频信号进行处理，获取二级音频信号和对应的元数据；获取音频信息的元数据中与第二标签对应的元数据，并根据第二标签对应的元数据，以及二级音频信号对应的元数据，对二级音频信号进行处理，获取具有环境声学效果的空间音频信号；其中，第一标签对应的元数据表示对环境渲染的元数据；第二标签对应的元数据表示对空间渲染的元数据；第三标签对应的元数据表示对音频编辑的元数据。一个实施方式中，具体实现功能的描述可以参见步骤S302所述。

在一个实施方式中，第二处理模块82还可以用于：根据第一标签对应的元数据，获取音频信号或者一级音频信号中的直达声信号和直达声信号对应的元数据，音频信号或者一级音频信号中的前期反射声信号和前期反射声信号对应的元数据，音频信号或者一级音频信号中的后期反射声和后期反射声信号对应的元数据；根据直达声信号、前期反射声信号和后期反射声信号确定一级音频信号或者二级音频信号；根据直达声信号对应的元数据、前期反射声信号对应的元数据和后期反射声信号对应的元数据，确定一级音频信号对应的元数据或者二级音频信号对应的元数据。一个实施方式中，具体实现功能的描述可以参见步骤S302所述。

在一个实施方式中，所述第二收发模块还用于：获取客户端对应的接收者的特征参数，并将特征参数上报给服务器；其中，接收者的特征参数包括：接收者的三维信息的特征参数，或者接收者的三维信息的特征参数和接收者对声音偏好的特征参数，或者接收者的三维信息的特征参数和接收者的设备特征参数，或者接收者的三维信息的特征参数、接收者的设备特征参数和接收者对声音偏好的特征参数。一个实施方式中，具体实现功能的描述可以参见步骤S301所述。

在一个实施方式中，第二处理模块82还可以用于：获取音频信息的元数据中与第二标签对应的元数据，并根据第二标签对应的元数据，以及一级音频信号对应的元数据或者二级音频信号对应的元数据，对一级音频信号或者二级音频信号进行基于头相关传输函数进行的虚拟渲染处理，或者对一级音频信号或者二级音频信号进行PAN和基于头相关传输函数进行的虚拟渲染处理，以获取具有环境声学效果的双耳空间音频信号；或者，获取音频信息的元数据中与第二标签对应的元数据，并根据第二标签对应的元数据，以及一级音频信号对应的元数据或者二级音频信号对应的元数据，对一级音频信号或者二级音频信号进行如下一种或者几种方式的组合方式进行处理：PAN，波场合成技术、高阶Ambisonics技术和波束成形技术，以获取具有环境声学效果的扬声器阵列的空间音频信号。一个实施方式中，具体实现功能的描述可以参见步骤S302所述。

图9为本申请另一实施例的客户端的结构示意图，如图9所示，该客户端包括：处理器101，以及与处理器101通信连接的存储器102；存储器102存储计算机执行指令；处理器101执行存储器102存储的计算机执行指令，实现上述实施例三中所述的音频信息的处理方法的步骤。

在上述客户端中，存储器102和处理器101之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线连接。存储器102中存储有实现数据访问控制方法的计算机执行指令，包括至少一个可以软件或固件的形式存储于存储器102中的软件功能模块，处理器101通过运行存储在存储器102内的软件程序以及模块，从而执行各种功能应用以及数据处理。

本申请的一实施例还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现本申请实施例三各方法所述的步骤。

本申请的一实施例还提供了一种分布式音视频制作系统，该系统可以包括：服务器和客户端，该服务器执行时用于实现上述实施例一和实施例二所述的各方法；该客户端执行时用于实现上述实施例三所述的各方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由所附的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种音频信息的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述声源的特征参数、环境特征参数和接收者的特征参数，建立声场模型，包括：

根据所述声源的特征参数，建立声源子声场；

根据所述环境特征参数，建立传播环境子声场；

根据所述接收者的特征参数，建立接收者子声场；

3.根据权利要求2所述的方法，其特征在于，还包括：

获取客户端发送的编辑信息；

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述声源子声场、传播环境子声场和接收者子声场，建立声场模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述声场模型，分别选取与所述虚拟环境中每个接收者匹配的音频信息，包括：

6.根据权利要求4所述的方法，其特征在于，所述声场模型，分别选取与所述虚拟环境中每个接收者匹配的音频信息，包括：

7.根据权利要求5所述的方法，其特征在于，所述第一渲染参数包括如下一种或者几种组合：声源位置、声源指向性、接收者位置、接收者朝向、虚拟源位置、虚拟环境空间大小，虚拟环境墙壁反射系数、吸声系数、声屏障、隔音系数、空气吸收系数、环境温度、环境湿度、频响曲线、相位曲线、灵敏度曲线、扬声器阵列的布局方式和扬声器个数。

8.根据权利要求6所述的方法，其特征在于，所述编辑信息包括如下一种或者几种组合：增益调整、均衡调整、滤波、语音强化、声源重定位、背景化和变调；

则所述第二渲染参数包括如下一种或者几种组合：

9.根据权利要求2或3所述的方法，其特征在于，所述声源的特征参数包括：声音数据、声源位置、声源形状、声源指向性、声源运动速度、声场传播范围、时频特性和声源内容。

10.根据权利要求2或3所述的方法，其特征在于，所述根据所述环境特征参数，建立传播环境子声场，包括：

11.根据权利要求10所述的方法，其特征在于，还包括：根据所述虚拟环境中环境湿度和/或环境温度，获取所述虚拟环境中的传播介质对声音传播的第二影响的参数；其中，所述第二影响的参数包括阻尼和衰减；

12.根据权利要求2或3所述的方法，其特征在于，所述根据所述接收者的特征参数，建立接收者子声场，包括：

13.根据权利要求12所述的方法，其特征在于，还包括：获取所述虚拟环境中每个接收者对声音偏好的特征参数；

14.一种音频信息的处理方法，其特征在于，所述方法包括：

15.根据权利要求14所述的方法，其特征在于，所述根据所述音频信息中的元数据，对所述音频信息中音频信号进行空间渲染处理，以获取所述音频信息对应的空间音频信号，包括：

16.根据权利要求14所述的方法，其特征在于，所述根据所述音频信息中的元数据，对所述音频信息中音频信号进行空间渲染处理，以获取所述音频信息对应的空间音频信号，包括：

17.根据权利要求16所述的方法，其特征在于，所述根据所述音频信息中的元数据，对所述音频信息中音频信号进行环境渲染和空间渲染处理，以获取所述音频信息对应的具有环境声学效果的空间音频信号，包括：

18.根据权利要求16所述的方法，其特征在于，还包括：

19.根据权利要求18所述的方法，其特征在于，所述根据所述音频信息中的元数据，对所述音频信息中音频信号进行音频编辑、环境渲染和空间渲染处理，或者进行环境渲染、音频编辑和空间渲染处理，以获取所述音频信息对应的具有环境声学效果的空间音频信号，包括：

20.根据权利要求18所述的方法，其特征在于，所述根据所述音频信息中的元数据，对所述音频信息中音频信号进行音频编辑、环境渲染和空间渲染处理，或者进行环境渲染、音频编辑和空间渲染处理，以获取所述音频信息对应的具有环境声学效果的空间音频信号，包括：

21.根据权利要求17至20任一所述的方法，其特征在于，根据所述第一标签对应的元数据对所述音频信号或者一级音频信号进行处理，获取一级音频信号和对应的元数据，或者获取二级音频信号和对应的元数据，包括：

22.根据权利要求14所述的方法，其特征在于，还包括：

23.根据权利要求17至20任一所述的方法，其特征在于，所述第三标签对应的元数据表示对音频自身编辑的元数据，包括如下一种或者几种组合：声源增益调整、声源均衡调整、声源滤波调整、声源频域强化调整、声源重定位调整、声源频域背景化调整和声源变调调整。

24.根据权利要求17至20任一所述的方法，其特征在于，所述第一标签对应的元数据表示对环境渲染的元数据，包括如下一种或者几种组合：声源位置、声源指向性、虚拟源位置、虚拟环境空间大小，虚拟环境墙壁反射系数、吸声系数、声屏障、隔音系数、空气吸收系数、环境温度和环境湿度。

25.根据权利要求17至20任一所述的方法，其特征在于，所述第二标签对应的元数据表示对空间渲染的元数据，包括如下一种或者几种组合：声源位置、声源指向性、接收者位置和接收者朝向。

26.根据权利要求17至20任一所述的方法，其特征在于，所述空间渲染的元数据还包括：设备的声学特性参数元数据和设备的布局信息元数据，其中；

27.根据权利要求26所述的方法，其特征在于，所述获取所述音频信息的元数据中与第二标签对应的元数据，并根据所述第二标签对应的元数据，以及所述一级音频信号对应的元数据或者所述二级音频信号对应的元数据，对所述一级音频信号或者所述二级音频信号进行处理，获取具有环境声学效果的空间音频信号，包括：

或者，

28.一种服务器，其特征在于，包括：

29.根据权利要求28所述的服务器，其特征在于，所述第一收发模块还用于：

根据所述声源的特征参数，建立声源子声场；

根据所述环境特征参数，建立传播环境子声场；

根据所述接收者的特征参数，建立接收者子声场；

30.根据权利要求29所述的服务器，其特征在于，所述第一收发模块还用于：

获取客户端发送的编辑信息；

31.根据权利要求29或30所述的服务器，其特征在于，所述第一处理模块还用于：

32.根据权利要求31所述的服务器，其特征在于，所述第一处理模块还用于：

33.根据权利要求31所述的服务器，其特征在于，所述第一处理模块还用于：

34.根据权利要求29或30所述的服务器，其特征在于，所述第一收发模块还用于：

35.根据权利要求34所述的服务器，其特征在于，所述第一收发模块还用于：根据所述虚拟环境中环境湿度和/或环境温度，获取所述虚拟环境中的传播介质对声音传播的第二影响的参数；其中，所述第二影响的参数包括阻尼和衰减；

36.根据权利要求29或30所述的服务器，其特征在于，所述第一收发模块还用于：

37.根据权利要求36所述的服务器，其特征在于，所述第一收发模块还用于：

获取所述虚拟环境中每个接收者对声音偏好的特征参数；

38.一种客户端，其特征在于，包括：

39.根据权利要求38所述的客户端，其特征在于，所述第二处理模块还用于：

40.根据权利要求38所述的客户端，其特征在于，所述第二处理模块还用于：

41.根据权利要求40所述的客户端，其特征在于，所述第二处理模块还用于：

42.根据权利要求40所述的客户端，其特征在于，所述第二收发模块还用于：

则所述第二处理模块还用于：

43.根据权利要求42所述的客户端，其特征在于，所述第二处理模块还用于：

44.根据权利要求42所述的客户端，其特征在于，所述第二处理模块还用于：

45.根据权利要求41-44任一所述的客户端，其特征在于，所述第二处理模块还用于：

46.根据权利要求38所述的客户端，其特征在于，所述第二收发模块还用于：

47.根据权利要求41-44任一所述的客户端，其特征在于，所述第二处理模块还用于：

或者，

48.一种分布式音视频制作系统，其特征在于，包括：服务器和客户端，所述服务器执行时用于实现如权利要求1至13中任一项所述的方法；所述客户端执行时用于实现如权利要求14至27中任一项所述的方法。

49.一种服务器，包括处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1至13中任一项所述的方法。

50.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至13中任一项所述的方法。

51.一种客户端，包括处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求14至27中任一项所述的方法。

52.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求14至27中任一项所述的方法。