CN110035250A

CN110035250A - 音频处理方法、处理设备、终端及计算机可读存储介质

Info

Publication number: CN110035250A
Application number: CN201910252541.6A
Authority: CN
Inventors: 申厚拯
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-07-19

Abstract

本发明提供了一种音频处理方法、处理设备、终端及计算机可读存储介质，其中，音频处理方法包括：确定多方会话中各个终端在虚拟会议室中的位置信息；根据位置信息，输出与所述位置信息对应的终端输入的音频数据。本方案能够实现把多方会话中的每个声源的声音投射到虚拟会议室中不同的位置，从而模拟真实会议场景，使得每个声源的声音都具有一定的区分度，即使同时有多个人讲话，用户也能够分清楚每个声源产生的内容，保证用户的正常使用，让沟通更加的顺畅、自然、贴近真实环境，解决了现有技术中通过移动终端进行的多方会议存在影响用户正常使用的情况的问题。

Description

音频处理方法、处理设备、终端及计算机可读存储介质

技术领域

本发明涉及终端技术领域，尤其涉及一种音频处理方法、处理设备、终端及计算机可读存储介质。

背景技术

随着科技的发展，在移动终端中进行三方通话或者多人会议的场景越来越多，但是，目前，在移动终端多方会议时，只是把所有人的声音简单地混合在一起，每个人的声音没有一定的区分度，所有人讲话的声场都在同一个地方，这样如果同时有多个人讲话，则很难分清楚每个人讲话的内容，影响用户的正常使用，也没有真实会议室开会的感觉。

发明内容

本发明的目的在于提供一种音频处理方法、处理设备、终端及计算机可读存储介质，以解决现有技术中通过移动终端进行的多方会议存在影响用户正常使用的情况的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种音频处理方法，应用于处理设备，包括：

确定多方会话中各个终端在虚拟会议室中的位置信息；

根据所述位置信息，输出与所述位置信息对应的终端输入的音频数据。

第二方面，本发明实施例还提供了一种音频处理方法，应用于终端，包括：

接收处理设备发送的虚拟会议室的预设参数信息；

根据所述虚拟会议室的预设参数信息，确定所述终端在所述虚拟会议室中的位置信息，并反馈给所述处理设备；

其中，所述预设参数信息包括虚拟会议室的大小信息、形状信息以及座位摆放信息中的至少一种。

第三方面，本发明实施例还提供了一种处理设备，包括：

第一确定模块，用于确定多方会话中各个终端在虚拟会议室中的位置信息；

第一输出模块，用于根据所述位置信息，输出与所述位置信息对应的终端输入的音频数据。

第四方面，本发明实施例还提供了一种终端，包括：

第一接收模块，用于接收处理设备发送的虚拟会议室的预设参数信息；

第一处理模块，用于根据所述虚拟会议室的预设参数信息，确定所述终端在所述虚拟会议室中的位置信息，并反馈给所述处理设备；

第五方面，本发明实施例还提供了一种处理设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述处理设备侧的音频处理方法的步骤。

第六方面，本发明实施例还提供了一种终端，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述终端侧的音频处理方法的步骤。

第七方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被所述处理器执行时实现上述处理设备侧的音频处理方法的步骤；或者

所述计算机程序被所述处理器执行时实现上述终端侧的音频处理方法的步骤。

在本发明实施例中，通过确定多方会话中各个终端在虚拟会议室中的位置信息；根据所述位置信息，输出与所述位置信息对应的终端输入的音频数据；能够实现把多方会话中的每个声源的声音投射到虚拟会议室中不同的位置，从而模拟真实会议场景，使得每个声源的声音都具有一定的区分度，即使同时有多个人讲话，用户也能够分清楚每个声源产生的内容，保证了用户的正常使用，让沟通更加的顺畅、自然、贴近真实环境，很好的解决了现有技术中通过移动终端进行的多方会议存在影响用户正常使用的情况的问题。

附图说明

图1为本发明实施例的音频处理方法流程示意图一；

图2为本发明实施例的音频处理方法流程示意图二；

图3为本发明实施例的音频处理方法具体应用流程示意图；

图4为本发明实施例的确定各个终端位置示意图；

图5为本发明实施例的音频数据空间滤波处理示意图；

图6为本发明实施例的音频数据混合输出示意图；

图7为本发明实施例的音频数据混响滤波处理示意图；

图8为本发明实施例的处理设备结构示意图一；

图9为本发明实施例的终端结构示意图一；

图10为本发明实施例的处理设备结构示意图二；

图11为本发明实施例的终端结构示意图二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明针对现有的技术中通过移动终端进行的多方会议存在影响用户正常使用的情况的问题，提供一种音频处理方法，应用于处理设备(处理设备可为终端或服务器等设备)，如图1所示，包括：

步骤11：确定多方(至少三方)会话中各个终端在虚拟会议室中的位置信息。

其中，所述确定多方会话中各个终端在虚拟会议室中的位置信息，可包括：创建多方会话的虚拟会议室；确定各个终端在虚拟会议室中的位置信息。

具体的，所述创建多方会话的虚拟会议室，可包括：接收多个终端发送的加入同一预设会话的请求信息；根据所述请求信息，创建多方会话的虚拟会议室。

步骤12：根据所述位置信息，输出与所述位置信息对应的终端输入的音频数据。

也就是，在终端输入音频数据后，根据所述终端对应的位置信息对输入的音频数据进行处理后输出。

本发明实施例提供的所述音频处理方法通过确定多方会话中各个终端在虚拟会议室中的位置信息；根据所述位置信息，输出与所述位置信息对应的终端输入的音频数据；能够实现把多方会话中的每个声源的声音投射到虚拟会议室中不同的位置，从而模拟真实会议场景，使得每个声源的声音都具有一定的区分度，即使同时有多个人讲话，用户也能够分清楚每个声源产生的内容，保证了用户的正常使用，让沟通更加的顺畅、自然、贴近真实环境，很好的解决了现有技术中通过移动终端进行的多方会议存在影响用户正常使用的情况的问题。

具体的，所述确定各个终端在虚拟会议室中的位置信息，包括：根据虚拟会议室的预设参数信息，确定各个终端在所述虚拟会议室中的位置信息；其中，所述预设参数信息包括虚拟会议室的大小信息、形状信息以及座位摆放信息中的至少一种。

这样能够使得终端位置的分配更加贴近实际情况；其中，在处理设备为终端时，确定的位置信息中包含处理设备自身的位置信息。

更具体的，所述根据虚拟会议室的预设参数信息，确定各个终端在所述虚拟会议室中的位置信息，包括：将虚拟会议室的预设参数信息，发送给参与所述多方会话的各个终端；接收每一终端根据所述预设参数信息反馈的自身在所述虚拟会议室中的位置信息。

也就是由各个终端自主选择在虚拟会议室中的位置，这样能够更加贴合各个终端的实际需求，比如等级比较优先的终端可选择位于虚拟会议室中央的位置。这种情况下，在处理设备为终端时，则处理设备还需确定自身的位置信息。

其中，若所述各个终端中的第一终端对应N个声源，则所述第一终端反馈的位置信息包含每一个声源在所述虚拟会议室中的位置信息，且任意两个位置信息对应的所述虚拟会议室中的位置之间的距离大于预设阈值，N为大于1的整数。

也就是，在一个终端对应多个(至少三个)声源(比如用户)时，这个终端会对应多个在所述虚拟会议室中的位置，每个声源对应一个位置。

本发明实施例中，所述根据所述位置信息，输出与所述位置信息对应的终端输入的音频数据，包括：根据所述位置信息，将所述位置信息对应的终端输入的音频数据进行空间滤波处理并输出。

也就是，将终端输入的音频数据形成为具有方向性和距离性的数据，以便于接听者进行区分。

具体的，所述根据所述位置信息，将所述位置信息对应的终端输入的音频数据进行空间滤波处理并输出，包括：根据所述位置信息，生成各个终端对应的空间滤波系数；根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据进行空间滤波处理；将空间滤波处理后的音频数据进行输出。

其中，所述空间滤波系数包括头部相关传递函数系数，或者矢量基振幅平移系数，但并不以此为限。

本发明实施例中，所述根据所述位置信息，生成各个终端对应的空间滤波系数，包括：根据所述位置信息，确定在所述虚拟会议室中每一终端与其他终端之间的相对位置信息；根据每一终端在所述虚拟会议室中的位置信息以及对应的所述相对位置信息，生成各个终端对应的空间滤波系数。

这样能够更精准的得到各个终端对应的空间滤波系数。

其中，所述根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据进行空间滤波处理，包括：根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据生成为具有距离信息和方位信息的音频数据。

这样能够更加便于用户对不同声源输入的音频数据进行区分。

具体的，所述将空间滤波处理后的音频数据进行输出，包括：根据各个终端的音频播放设备的数量，将空间滤波处理后的音频数据生成为对应数量声道的音频数据并发送给各个终端进行输出；或者，

所述将空间滤波处理后的音频数据进行输出，包括：将空间滤波处理后的音频数据发送给各个终端，触发各个终端根据自身的音频播放设备的数量将空间滤波处理后的音频数据生成为对应数量声道的音频数据进行输出。

也就是由处理设备直接完成对音频数据的处理，直接发送给终端进行播放即可；或者，由处理设备完成对音频数据的一部分处理，然后发送给终端，由终端根据自身的播放设备情况再对音频数据进行后续处理，然后播放。

本发明实施例中，若所述各个终端中的第一终端对应N个声源，则所述第一终端在所述虚拟会议室中对应N个位置，且每一个位置对应一个声源，任意两个位置之间的距离大于预设阈值；其中，N为大于1的整数。

对应的，所述确定多方会话中各个终端在虚拟会议室中的位置信息，包括：接收第一终端输入的音频数据；从所述音频数据中提取每一声源的声频特征信息；根据提取的声频特征信息，确定N的值；根据N的值，确定所述第一终端在所述虚拟会议室中的N个位置信息。

具体的，所述根据所述位置信息，生成各个终端对应的空间滤波系数，包括：根据所述位置信息，生成各个声源对应的空间滤波系数；对应的，所述根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据进行空间滤波处理，包括：根据所述空间滤波系数，将输入的所述位置信息对应的声源的音频数据进行空间滤波处理。

进一步的，在将所述位置信息对应的终端输入的音频数据进行空间滤波处理并输出之前，还包括：根据所述虚拟会议室的预设参数信息，确定所述虚拟会议室对应的混响滤波参数信息；

对应的，所述根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据进行空间滤波处理并输出，包括：根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据进行空间滤波处理，得到第一数据；根据所述虚拟会议室的类型信息，在所述第一数据中加入噪声数据，形成第二数据；根据所述混响滤波参数信息，对所述第二数据进行混响滤波处理；将混响滤波处理后的第二数据进行输出；

其中，所述类型信息包括虚拟会议室的用途信息、墙壁材质信息和摆放的桌椅的材质信息中的至少一种；所述预设参数信息包括虚拟会议室的大小信息、形状信息以及座位摆放信息中的至少一种。

本发明实施例还提供了一种音频处理方法，应用于终端，如图2所示，包括：

步骤21：接收处理设备发送的虚拟会议室的预设参数信息；

步骤22：根据所述虚拟会议室的预设参数信息，确定所述终端在所述虚拟会议室中的位置信息，并反馈给所述处理设备；

其中，所述预设参数信息包括所述虚拟会议室的大小信息、形状信息以及座位摆放信息中的至少一种。

本发明实施例提供的所述音频处理方法通过接收处理设备发送的虚拟会议室的预设参数信息；根据所述虚拟会议室的预设参数信息，确定所述终端在所述虚拟会议室中的位置信息，并反馈给所述处理设备；其中，所述预设参数信息包括虚拟会议室的大小信息、形状信息以及座位摆放信息中的至少一种；能够支撑处理设备实现把多方会话中的每个声源的声音投射到虚拟会议室中不同的位置，从而模拟真实会议场景，使得每个声源的声音都具有一定的区分度，即使同时有多个人讲话，用户也能够分清楚每个声源产生的内容，保证了用户的正常使用，让沟通更加的顺畅、自然、贴近真实环境，很好的解决了现有技术中通过移动终端进行的多方会议存在影响用户正常使用的情况的问题。

其中，所述根据所述虚拟会议室的预设参数信息，确定所述终端在所述虚拟会议室中的位置信息，包括：若所述终端对应N个声源，则根据所述虚拟会议室的预设参数信息，确定每一声源在所述虚拟会议室中的位置信息；其中，任意两个位置信息对应的所述虚拟会议室中的位置之间的距离大于预设阈值，N为大于1的整数。

也就是，在一个终端对应多个声源(比如用户)时，这个终端在所述虚拟会议室中会对应多个位置，每个声源对应一个位置。

具体的，所述根据所述虚拟会议室的预设参数信息，确定所述终端在所述虚拟会议室中的位置信息，包括：根据所述虚拟会议室的预设参数信息以及所述终端的优先等级信息，确定所述终端在所述虚拟会议室中的位置信息。

也就是终端自主选择在虚拟会议室中的位置，这样能够更加贴合终端的实际需求，比如等级比较优先的终端(终端认为自己的重要性较高)可选择位于虚拟会议室中央的位置。

进一步的，在接收处理设备发送的虚拟会议室的预设参数信息之前，还包括：向所述处理设备发送加入预设会话的请求信息，触发所述处理设备创建多方会话的虚拟会议室。

这样能够触发处理设备创建虚拟会议室，对终端进行位置分配。

更进一步的，根据所述虚拟会议室的预设参数信息，确定所述终端在所述虚拟会议室中的位置信息，并反馈给所述处理设备之后，还包括：接收所述处理设备发送的音频数据并进行输出。

这样能够保证多方会话的完整进行。

其中，所述接收所述处理设备发送的音频数据并进行输出，包括：接收所述处理设备发送的音频数据；根据所述终端的音频播放设备的数量，将所述音频数据生成为对应数量声道的音频数据进行输出。

这样能够减少处理设备的处理量，分散压力，提高处理速度。

下面结合处理设备和终端两侧对本发明实施例提供的所述音频处理方法进行进一步说明。

针对上述技术问题，本发明实施例提供了一种音频处理方法，具体可利用生理声学及心理声学原理，通过虚拟环绕音技术，把多方(至少三方)会话中的每个声源投射到虚拟会议室不同的位置，从而模拟真实多方会话场景，每个声源的声音都一定的区分度,进一步在同一个终端对应多个声源(比如同一路电话有多人讲话，至少两个)时，可以通过对声源的声音特征的识别，把音频分离，投射到虚拟会议室中不同的位置上，这样区分度会更高。

具体的，本发明实施例提供的方案可如图3所示(多方会话以多方会议为例，处理设备以服务器为例)，包括：

步骤31：建立多方会议。

具体可为建立多方通话，可以是电话或者视频聊天，这个可以通过移动手机，有线电话或者对讲机建立，但并不以此为限。

步骤32：建立一个虚拟会议室，包括确认虚拟会议室的房间大小、座位摆放等。

具体的，创建一个虚拟的会议室，包括会议室类型、大小、座位摆放等，这些参数可以先预存在系统中，也可以用户自己调节，创建会议室时需要有会议室的空间信息(比如大小、形状)以及各个座位的位置信息。

步骤33：把会议中的每个声源投射到(虚拟会议室中)不同的位置。

具体可为，把会议的每一个终端在会议桌上分配一个座位，可以手动分配也可以系统自动分配，在分配座位时需要计算说话人(音频输入的终端)相对于接听者(接收音频的终端)的位置信息，这些位置信息可以通过服务器统一分配，也可以在单个设备上自由分配(由终端自主选择)。

当一路通话有多个声源(比如多人说话，至少两个)时，提取每个声源的声纹及其他声音特征信息(比如语调、语速)，每识别出一个声源，系统自动分配一个(虚拟会议室中的)座位，并把同一路通话多个声源的位置尽可能远，这样便于把声音区分出来，如图4所示。

步骤34：根据说话人跟听者之间的距离及方位(具体可为在虚拟会议室中的距离及方位)生成带有距离及方位的空间滤波系数。

具体的，根据步骤33中说话人及接听者之间的相对位置信息(具体可为在虚拟会议室中的相对位置信息，可包含方位及距离)，生成空间滤波系数，每个说话人对应至少一组空间滤波系数(组数与音频播放设备的个数一致)，如头部相关传递函数HRTF系数，也可以是矢量基振幅平移Vector base amplitude panning系数，或者其他空间滤波参数。

步骤35：每一路通话经过相应的滤波处理，把声音投射到相应的位置。

具体的，对虚拟会议室中每一个座位对应的语音信号用步骤34生成的空间滤波系数进行滤波处理，生成带有距离及方位信息的语音信号(实现把声音投射到在虚拟会议室中相应的位置)，根据接听者的播放设备的个数，可以生成双声道语音信号，也可以生成多声道(至少三声道)语音信号；

当一个声道中有多个不同声源产生的声音的时候，通过步骤33提取的声音特征信息，提取虚拟会议室中各个座位上对应的声源产生的语音信号，去除其他声源产生的声音，再对各自的声音采用步骤34生成的空间滤波系数进行滤波处理，如图5所示。

步骤36：把各路通话混合在一起，每个声道单独混合。

具体的，把虚拟会议室中各个座位由步骤35经过空间滤波处理的语音信号的每个声道的信号混合在一起，生成一个有n声道的语音信号，这个语音信号包含各个说话人的声音，但是各个说话人带的空间信息不同，接听者听觉成像的位置是不同的，可以区分来自不同方位的声音，听起来会更加的清晰自然，如图6所示。

步骤37：根据选择不同的场景(类型)的会议室，加入不同的舒适噪声。

具体的，进一步可根据步骤32生成的会议室的类型信息(可包含墙壁材料、桌椅等硬件的摆设、硬件的材料、会议室的用途等参数)，对步骤36生成的信号加入不同的舒适噪声，噪声可以通过录不同类型会议室的底噪，存储在设备中，也可以根据房间的类型，参加会议的人数，以及各个说话人的声音自动生成舒适噪声。

步骤38：对声音进行混响处理，模拟会议室空间效果。

具体的，根据步骤32创建的会议室的大小信息和形状信息等，生成混响滤波参数，这个参数可以通过录制真实会议室的房间脉冲响应参数实现，也可以对房间建模，自动生成房间滤波参数。

对步骤37加入舒适噪声的语音信号进行混响滤波处理，语音中会带有真实房间效果，带有真实会议室的沉浸感，会议时接听者接收的信息也更加准确，如图7所示。

步骤39：声音从音频播放设备(比如耳机或者双喇叭扬声器)输出。

具体的，把步骤38生成的语音信号通过双声道耳机或者多声道(至少三声道)扬声器等音频播放设备输出。

由上可知，本发明实施例提供的方案能够将每一个声源产生的声音投射到会议室不同的位置，每个声源从不同的地方发声，声音更加的自然；在多个声源同时产生声音时，各路声音有一定的区分度，每个声源产生的声音都能够听得清楚，提高会议的效率；并且模拟会议室空间，有使用户存在真实在会议室的感觉；具体的，当一路通话有多个声源(至少两个)产生声音，可以通过先提取各个声源的声音信号，再对各个的语音信号进行空间滤波，这样可以更加清晰区分每一个声源产生的音频。

在此说明，本发明实施例提供的方案不仅用于多方会议的场景，也可以用于其他的用到虚拟环绕效果的场景，比如游戏，唱歌等，在此不作限定。

本发明实施例还提供了一种处理设备，如图8所示，包括：

第一确定模块81，用于确定多方会话中各个终端在虚拟会议室中的位置信息；

第一输出模块82，用于根据所述位置信息，输出与所述位置信息对应的终端输入的音频数据。

本发明实施例提供的所述处理设备通过确定多方会话中各个终端在虚拟会议室中的位置信息；根据所述位置信息，输出与所述位置信息对应的终端输入的音频数据；能够实现把多方会话中的每个声源的声音投射到虚拟会议室中不同的位置，从而模拟真实会议场景，使得每个声源的声音都具有一定的区分度，即使同时有多个人讲话，用户也能够分清楚每个声源产生的内容，保证了用户的正常使用，让沟通更加的顺畅、自然、贴近真实环境，很好的解决了现有技术中通过移动终端进行的多方会议存在影响用户正常使用的情况的问题。

其中，所述第一确定模块，包括：第一创建子模块，用于创建多方会话的虚拟会议室；第一确定子模块，用于确定各个终端在虚拟会议室中的位置信息。

具体的，所述第一创建子模块，包括：第一接收单元，用于接收多个终端发送的加入同一预设会话的请求信息；第一创建单元，用于根据所述请求信息，创建多方会话的虚拟会议室。

本发明实施例中，所述第一确定子模块，包括：第一确定单元，用于根据虚拟会议室的预设参数信息，确定各个终端在所述虚拟会议室中的位置信息；其中，所述预设参数信息包括虚拟会议室的大小信息、形状信息以及座位摆放信息中的至少一种。

具体的，所述第一确定单元，包括：第一发送子单元，用于将虚拟会议室的预设参数信息，发送给参与所述多方会话的各个终端；第一接收子单元，用于接收每一终端根据所述预设参数信息反馈的自身在所述虚拟会议室中的位置信息。

本发明实施例中，所述第一输出模块，包括：第一输出子模块，用于根据所述位置信息，将所述位置信息对应的终端输入的音频数据进行空间滤波处理并输出。

具体的，所述第一输出子模块，包括：第一生成单元，用于根据所述位置信息，生成各个终端对应的空间滤波系数；第一处理单元，用于根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据进行空间滤波处理；第一输出单元，用于将空间滤波处理后的音频数据进行输出。

本发明实施例中，所述第一生成单元，包括：第一确定子单元，用于根据所述位置信息，确定在所述虚拟会议室中每一终端与其他终端之间的相对位置信息；第一生成子单元，用于根据每一终端在所述虚拟会议室中的位置信息以及对应的所述相对位置信息，生成各个终端对应的空间滤波系数。

其中，所述第一处理单元，包括：第一处理子单元，用于根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据生成为具有距离信息和方位信息的音频数据。

具体的，所述第一输出单元，包括：第二处理子单元，应用于根据各个终端的音频播放设备的数量，将空间滤波处理后的音频数据生成为对应数量声道的音频数据并发送给各个终端进行输出；或者

所述第一输出单元，包括：第三处理子单元，用于将空间滤波处理后的音频数据发送给各个终端，触发各个终端根据自身的音频播放设备的数量将空间滤波处理后的音频数据生成为对应数量声道的音频数据进行输出。

对应的，所述第一确定模块，包括：第一接收子模块，用于接收第一终端输入的音频数据；第一提取子模块，用于从所述音频数据中提取每一声源的声频特征信息；第二确定子模块，用于根据提取的声频特征信息，确定N的值；第三确定子模块，用于根据N的值，确定所述第一终端在所述虚拟会议室中的N个位置信息。

具体的，所述第一生成单元，包括：第二生成子单元，用于根据所述位置信息，生成各个声源对应的空间滤波系数；对应的，所述第一处理单元，包括：第四处理子单元，用于根据所述空间滤波系数，将输入的所述位置信息对应的声源的音频数据进行空间滤波处理。

进一步的，所述处理设备还包括：第二确定模块，用于在将所述位置信息对应的终端输入的音频数据进行空间滤波处理并输出之前，根据所述虚拟会议室的预设参数信息，确定所述虚拟会议室对应的混响滤波参数信息；

对应的，所述第一处理单元，包括：第五处理子单元，用于根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据进行空间滤波处理，得到第一数据；第六处理子单元，用于根据所述虚拟会议室的类型信息，在所述第一数据中加入噪声数据，形成第二数据；第七处理子单元，用于根据所述混响滤波参数信息，对所述第二数据进行混响滤波处理；第一输出子单元，用于将混响滤波处理后的第二数据进行输出；

本发明实施例提供的处理设备能够实现图1至图7的方法实施例中处理设备实现的各个过程，为避免重复，这里不再赘述。

本发明实施例还提供了一种终端，如图9所示，包括：

第一接收模块91，用于接收处理设备发送的虚拟会议室的预设参数信息；

第一处理模块92，用于根据所述虚拟会议室的预设参数信息，确定所述终端在所述虚拟会议室中的位置信息，并反馈给所述处理设备；

本发明实施例提供的所述终端通过接收处理设备发送的虚拟会议室的预设参数信息；根据所述虚拟会议室的预设参数信息，确定所述终端在所述虚拟会议室中的位置信息，并反馈给所述处理设备；其中，所述预设参数信息包括虚拟会议室的大小信息、形状信息以及座位摆放信息中的至少一种；能够支撑处理设备实现把多方会话中的每个声源的声音投射到虚拟会议室中不同的位置，从而模拟真实会议场景，使得每个声源的声音都具有一定的区分度，即使同时有多个人讲话，用户也能够分清楚每个声源产生的内容，保证了用户的正常使用，让沟通更加的顺畅、自然、贴近真实环境，很好的解决了现有技术中通过移动终端进行的多方会议存在影响用户正常使用的情况的问题。

其中，所述第一处理模块，包括：第一处理子模块，用于若所述终端对应N个声源，则根据所述虚拟会议室的预设参数信息，确定每一声源在所述虚拟会议室中的位置信息；其中，任意两个位置信息对应的所述虚拟会议室中的位置之间的距离大于预设阈值，N为大于1的整数。

具体的，所述第一处理模块，包括：第四确定子模块，用于根据所述虚拟会议室的预设参数信息以及所述终端的优先等级信息，确定所述终端在所述虚拟会议室中的位置信息。

进一步的，所述终端还包括：第二处理模块，用于在接收处理设备发送的虚拟会议室的预设参数信息之前，向所述处理设备发送加入预设会话的请求信息，触发所述处理设备创建多方会话的虚拟会议室。

更进一步的，所述终端还包括：第三处理模块，用于根据所述虚拟会议室的预设参数信息，确定所述终端在所述虚拟会议室中的位置信息，并反馈给所述处理设备之后，接收所述处理设备发送的音频数据并进行输出。

其中，所述第三处理模块，包括：第二接收子模块，用于接收所述处理设备发送的音频数据；第二处理子模块，用于根据所述终端的音频播放设备的数量，将所述音频数据生成为对应数量声道的音频数据进行输出。

本发明实施例提供的终端能够实现图1至图7的方法实施例中终端实现的各个过程，为避免重复，这里不再赘述。

图10为实现本发明各个实施例的一种处理设备的硬件结构示意图，该处理设备具体为一种终端，该终端100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器1010、以及电源1011等部件。本领域技术人员可以理解，图10中示出的终端结构并不构成对终端的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器1010，用于确定多方会话中各个终端在虚拟会议室中的位置信息；根据所述位置信息，输出与所述位置信息对应的终端输入的音频数据。

可选的，处理器1010具体用于，创建多方会话的虚拟会议室；确定各个终端在虚拟会议室中的位置信息。

可选的，处理器1010具体用于，接收多个终端发送的加入同一预设会话的请求信息；根据所述请求信息，创建多方会话的虚拟会议室。

可选的，处理器1010具体用于，根据虚拟会议室的预设参数信息，确定各个终端在所述虚拟会议室中的位置信息；其中，所述预设参数信息包括虚拟会议室的大小信息、形状信息以及座位摆放信息中的至少一种。

可选的，处理器1010具体用于，将虚拟会议室的预设参数信息，发送给参与所述多方会话的各个终端；接收每一终端根据所述预设参数信息反馈的自身在所述虚拟会议室中的位置信息。

可选的，若所述各个终端中的第一终端对应N个声源，则所述第一终端反馈的位置信息包含每一个声源在所述虚拟会议室中的位置信息，且任意两个位置信息对应的所述虚拟会议室中的位置之间的距离大于预设阈值，N为大于1的整数。

可选的，处理器1010具体用于，根据所述位置信息，将所述位置信息对应的终端输入的音频数据进行空间滤波处理并输出。

可选的，处理器1010具体用于，根据所述位置信息，生成各个终端对应的空间滤波系数；根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据进行空间滤波处理；将空间滤波处理后的音频数据进行输出。

可选的，处理器1010具体用于，根据所述位置信息，确定在所述虚拟会议室中每一终端与其他终端之间的相对位置信息；根据每一终端在所述虚拟会议室中的位置信息以及对应的所述相对位置信息，生成各个终端对应的空间滤波系数。

可选的，处理器1010具体用于，根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据生成为具有距离信息和方位信息的音频数据。

可选的，处理器1010具体用于，根据各个终端的音频播放设备的数量，将空间滤波处理后的音频数据生成为对应数量声道的音频数据并发送给各个终端进行输出。

可选的，处理器1010具体用于，将空间滤波处理后的音频数据发送给各个终端，触发各个终端根据自身的音频播放设备的数量将空间滤波处理后的音频数据生成为对应数量声道的音频数据进行输出。

可选的，若所述各个终端中的第一终端对应N个声源，则所述第一终端在所述虚拟会议室中对应N个位置，且每一个位置对应一个声源，任意两个位置之间的距离大于预设阈值；其中，N为大于1的整数。

可选的，处理器1010具体用于，接收第一终端输入的音频数据；从所述音频数据中提取每一声源的声频特征信息；根据提取的声频特征信息，确定N的值；根据N的值，确定所述第一终端在所述虚拟会议室中的N个位置信息。

可选的，处理器1010具体用于，根据所述位置信息，生成各个声源对应的空间滤波系数；根据所述空间滤波系数，将输入的所述位置信息对应的声源的音频数据进行空间滤波处理。

可选的，处理器1010还用于，在将对应终端输入的音频数据进行空间滤波处理并输出之前，根据所述虚拟会议室的预设参数信息，确定所述虚拟会议室对应的混响滤波参数信息；

处理器1010具体用于，根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据进行空间滤波处理，得到第一数据；根据所述虚拟会议室的类型信息，在所述第一数据中加入噪声数据，形成第二数据；根据所述混响滤波参数信息，对所述第二数据进行混响滤波处理；将混响滤波处理后的第二数据进行输出；

应理解的是，本发明实施例中，射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器1010处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信系统与网络和其他设备通信。

终端通过网络模块102为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元103可以将射频单元101或网络模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103包括扬声器、蜂鸣器以及受话器等。

输入单元104用于接收音频或视频信号。输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或网络模块102进行发送。麦克风1042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。

终端100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在终端100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器105还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1010，接收处理器1010发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板1071可覆盖在显示面板1061上，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器1010以确定触摸事件的类型，随后处理器1010根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图10中，触控面板1071与显示面板1061是作为两个独立的部件来实现终端的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现终端的输入和输出功能，具体此处不做限定。

接口单元108为外部装置与终端100连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到终端100内的一个或多个元件或者可以用于在终端100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1010是终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行终端的各种功能和处理数据，从而对终端进行整体监控。处理器1010可包括一个或多个处理单元；优选的，处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

终端100还可以包括给各个部件供电的电源1011(比如电池)，优选的，电源1011可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，终端100包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种处理设备，包括处理器1010，存储器109，存储在存储器109上并可在所述处理器1010上运行的计算机程序，该计算机程序被所述处理器1010执行时实现上述处理设备侧的音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述处理设备侧的音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

图11为实现本发明各个实施例的一种终端的硬件结构示意图，该终端110包括但不限于：射频单元111、网络模块112、音频输出单元113、输入单元114、传感器115、显示单元116、用户输入单元117、接口单元118、存储器119、处理器1110、以及电源1111等部件。本领域技术人员可以理解，图11中示出的终端结构并不构成对终端的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器1110，用于接收处理设备发送的虚拟会议室的预设参数信息；根据所述虚拟会议室的预设参数信息，确定所述终端在所述虚拟会议室中的位置信息，并反馈给所述处理设备；其中，所述预设参数信息包括虚拟会议室的大小信息、形状信息以及座位摆放信息中的至少一种。

在本发明实施例中，通过接收处理设备发送的虚拟会议室的预设参数信息；根据所述虚拟会议室的预设参数信息，确定所述终端在所述虚拟会议室中的位置信息，并反馈给所述处理设备；其中，所述预设参数信息包括虚拟会议室的大小信息、形状信息以及座位摆放信息中的至少一种；能够支撑处理设备实现把多方会话中的每个声源的声音投射到虚拟会议室中不同的位置，从而模拟真实会议场景，使得每个声源的声音都具有一定的区分度，即使同时有多个人讲话，用户也能够分清楚每个声源产生的内容，保证了用户的正常使用，让沟通更加的顺畅、自然、贴近真实环境，很好的解决了现有技术中通过移动终端进行的多方会议存在影响用户正常使用的情况的问题。

可选的，处理器1110具体用于，若所述终端对应N个声源，则根据所述虚拟会议室的预设参数信息，确定每一声源在所述虚拟会议室中的位置信息；其中，任意两个位置信息对应的所述虚拟会议室中的位置之间的距离大于预设阈值，N为大于1的整数。

可选的，处理器1110具体用于，根据所述虚拟会议室的预设参数信息以及所述终端的优先等级信息，确定所述终端在所述虚拟会议室中的位置信息。

可选的，处理器1110还用于，在接收处理设备发送的虚拟会议室的预设参数信息之前，向所述处理设备发送加入预设会话的请求信息，触发所述处理设备创建多方会话的虚拟会议室。

可选的，处理器1110还用于，根据所述虚拟会议室的预设参数信息，确定所述终端在所述虚拟会议室中的位置信息，并反馈给所述处理设备之后，接收所述处理设备发送的音频数据并进行输出。

可选的，处理器1110具体用于，接收所述处理设备发送的音频数据；根据所述终端的音频播放设备的数量，将所述音频数据生成为对应数量声道的音频数据进行输出。

应理解的是，本发明实施例中，射频单元111可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器1110处理；另外，将上行的数据发送给基站。通常，射频单元111包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元111还可以通过无线通信系统与网络和其他设备通信。

终端通过网络模块112为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元113可以将射频单元111或网络模块112接收的或者在存储器119中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元113还可以提供与终端110执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元113包括扬声器、蜂鸣器以及受话器等。

输入单元114用于接收音频或视频信号。输入单元114可以包括图形处理器(Graphics Processing Unit，GPU)1141和麦克风1142，图形处理器1141对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元116上。经图形处理器1141处理后的图像帧可以存储在存储器119(或其它存储介质)中或者经由射频单元111或网络模块112进行发送。麦克风1142可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元111发送到移动通信基站的格式输出。

终端110还包括至少一种传感器115，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1161的亮度，接近传感器可在终端110移动到耳边时，关闭显示面板1161和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器115还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元116用于显示由用户输入的信息或提供给用户的信息。显示单元116可包括显示面板1161，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1161。

用户输入单元117可用于接收输入的数字或字符信息，以及产生与终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元117包括触控面板1171以及其他输入设备1172。触控面板1171，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1171上或在触控面板1171附近的操作)。触控面板1171可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1110，接收处理器1110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1171。除了触控面板1171，用户输入单元117还可以包括其他输入设备1172。具体地，其他输入设备1172可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板1171可覆盖在显示面板1161上，当触控面板1171检测到在其上或附近的触摸操作后，传送给处理器1110以确定触摸事件的类型，随后处理器1110根据触摸事件的类型在显示面板1161上提供相应的视觉输出。虽然在图11中，触控面板1171与显示面板1161是作为两个独立的部件来实现终端的输入和输出功能，但是在某些实施例中，可以将触控面板1171与显示面板1161集成而实现终端的输入和输出功能，具体此处不做限定。

接口单元118为外部装置与终端110连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元118可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到终端110内的一个或多个元件或者可以用于在终端110和外部装置之间传输数据。

存储器119可用于存储软件程序以及各种数据。存储器119可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器119可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1110是终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器119内的软件程序和/或模块，以及调用存储在存储器119内的数据，执行终端的各种功能和处理数据，从而对终端进行整体监控。处理器1110可包括一个或多个处理单元；优选的，处理器1110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1110中。

终端110还可以包括给各个部件供电的电源1111(比如电池)，优选的，电源1111可以通过电源管理系统与处理器1110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，终端110包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种终端，包括处理器1110，存储器119，存储在存储器119上并可在所述处理器1110上运行的计算机程序，该计算机程序被所述处理器1110执行时实现上述终端侧的音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述终端侧的音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种音频处理方法，应用于处理设备，其特征在于，包括：

确定多方会话中各个终端在虚拟会议室中的位置信息；

2.根据权利要求1所述的音频处理方法，其特征在于，所述确定多方会话中各个终端在虚拟会议室中的位置信息，包括：

创建多方会话的虚拟会议室；

确定各个终端在虚拟会议室中的位置信息。

3.根据权利要求2所述的音频处理方法，其特征在于，所述创建多方会话的虚拟会议室，包括：

接收多个终端发送的加入同一预设会话的请求信息；

根据所述请求信息，创建多方会话的虚拟会议室。

4.根据权利要求2所述的音频处理方法，其特征在于，所述确定各个终端在虚拟会议室中的位置信息，包括：

根据虚拟会议室的预设参数信息，确定各个终端在所述虚拟会议室中的位置信息；

5.根据权利要求4所述的音频处理方法，其特征在于，所述根据虚拟会议室的预设参数信息，确定各个终端在所述虚拟会议室中的位置信息，包括：

将虚拟会议室的预设参数信息，发送给参与所述多方会话的各个终端；

接收每一终端根据所述预设参数信息反馈的自身在所述虚拟会议室中的位置信息。

6.根据权利要求5所述的音频处理方法，其特征在于，若所述各个终端中的第一终端对应N个声源，则所述第一终端反馈的位置信息包含每一个声源在所述虚拟会议室中的位置信息，且任意两个位置信息对应的所述虚拟会议室中的位置之间的距离大于预设阈值，N为大于1的整数。

7.根据权利要求1所述的音频处理方法，其特征在于，所述根据所述位置信息，输出与所述位置信息对应的终端输入的音频数据，包括：

根据所述位置信息，将所述位置信息对应的终端输入的音频数据进行空间滤波处理并输出。

8.根据权利要求7所述的音频处理方法，其特征在于，所述根据所述位置信息，将所述位置信息对应的终端输入的音频数据进行空间滤波处理并输出，包括：

根据所述位置信息，生成各个终端对应的空间滤波系数；

根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据进行空间滤波处理；

将空间滤波处理后的音频数据进行输出。

9.根据权利要求8所述的音频处理方法，其特征在于，所述根据所述位置信息，生成各个终端对应的空间滤波系数，包括：

根据所述位置信息，确定在所述虚拟会议室中每一终端与其他终端之间的相对位置信息；

根据每一终端在所述虚拟会议室中的位置信息以及对应的所述相对位置信息，生成各个终端对应的空间滤波系数。

10.根据权利要求8所述的音频处理方法，其特征在于，所述根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据进行空间滤波处理，包括：

根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据生成为具有距离信息和方位信息的音频数据。

11.根据权利要求8所述的音频处理方法，其特征在于，所述将空间滤波处理后的音频数据进行输出，包括：

根据各个终端的音频播放设备的数量，将空间滤波处理后的音频数据生成为对应数量声道的音频数据并发送给各个终端进行输出。

12.根据权利要求8所述的音频处理方法，其特征在于，所述将空间滤波处理后的音频数据进行输出，包括：

将空间滤波处理后的音频数据发送给各个终端，触发各个终端根据自身的音频播放设备的数量将空间滤波处理后的音频数据生成为对应数量声道的音频数据进行输出。

13.根据权利要求8所述的音频处理方法，其特征在于，若所述各个终端中的第一终端对应N个声源，则所述第一终端在所述虚拟会议室中对应N个位置，且每一个位置对应一个声源，任意两个位置之间的距离大于预设阈值；其中，N为大于1的整数。

14.根据权利要求13所述的音频处理方法，其特征在于，所述确定多方会话中各个终端在虚拟会议室中的位置信息，包括：

接收第一终端输入的音频数据；

从所述音频数据中提取每一声源的声频特征信息；

根据提取的声频特征信息，确定N的值；

根据N的值，确定所述第一终端在所述虚拟会议室中的N个位置信息。

15.根据权利要求14所述的音频处理方法，其特征在于，所述根据所述位置信息，生成各个终端对应的空间滤波系数，包括：

根据所述位置信息，生成各个声源对应的空间滤波系数；

所述根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据进行空间滤波处理，包括：

根据所述空间滤波系数，将输入的所述位置信息对应的声源的音频数据进行空间滤波处理。

16.根据权利要求8所述的音频处理方法，其特征在于，在将所述位置信息对应的终端输入的音频数据进行空间滤波处理并输出之前，还包括：

根据所述虚拟会议室的预设参数信息，确定所述虚拟会议室对应的混响滤波参数信息；

所述根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据进行空间滤波处理并输出，包括：

根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据进行空间滤波处理，得到第一数据；

根据所述虚拟会议室的类型信息，在所述第一数据中加入噪声数据，形成第二数据；

根据所述混响滤波参数信息，对所述第二数据进行混响滤波处理；

将混响滤波处理后的第二数据进行输出；

其中，所述类型信息包括虚拟会议室的用途信息、墙壁材质信息和摆放的桌椅的材质信息中的至少一种；

所述预设参数信息包括虚拟会议室的大小信息、形状信息以及座位摆放信息中的至少一种。

17.一种音频处理方法，应用于终端，其特征在于，包括：

接收处理设备发送的虚拟会议室的预设参数信息；

18.根据权利要求17所述的音频处理方法，其特征在于，所述根据所述虚拟会议室的预设参数信息，确定所述终端在所述虚拟会议室中的位置信息，包括：

若所述终端对应N个声源，则根据所述虚拟会议室的预设参数信息，确定每一声源在所述虚拟会议室中的位置信息；

其中，任意两个位置信息对应的所述虚拟会议室中的位置之间的距离大于预设阈值，N为大于1的整数。

19.根据权利要求17所述的音频处理方法，其特征在于，所述根据所述虚拟会议室的预设参数信息，确定所述终端在所述虚拟会议室中的位置信息，包括：

根据所述虚拟会议室的预设参数信息以及所述终端的优先等级信息，确定所述终端在所述虚拟会议室中的位置信息。

20.根据权利要求17所述的音频处理方法，其特征在于，在接收处理设备发送的虚拟会议室的预设参数信息之前，还包括：

向所述处理设备发送加入预设会话的请求信息，触发所述处理设备创建多方会话的虚拟会议室。

21.根据权利要求17所述的音频处理方法，其特征在于，根据所述虚拟会议室的预设参数信息，确定所述终端在所述虚拟会议室中的位置信息，并反馈给所述处理设备之后，还包括：

接收所述处理设备发送的音频数据并进行输出。

22.根据权利要求21所述的音频处理方法，其特征在于，所述接收所述处理设备发送的音频数据并进行输出，包括：

接收所述处理设备发送的音频数据；

根据所述终端的音频播放设备的数量，将所述音频数据生成为对应数量声道的音频数据进行输出。

23.一种处理设备，其特征在于，包括：

24.根据权利要求23所述的处理设备，其特征在于，所述第一确定模块，包括：

第一创建子模块，用于创建多方会话的虚拟会议室；

第一确定子模块，用于确定各个终端在虚拟会议室中的位置信息。

25.根据权利要求24所述的处理设备，其特征在于，所述第一创建子模块，包括：

第一接收单元，用于接收多个终端发送的加入同一预设会话的请求信息；

第一创建单元，用于根据所述请求信息，创建多方会话的虚拟会议室。

26.根据权利要求24所述的处理设备，其特征在于，所述第一确定子模块，包括：

第一确定单元，用于根据虚拟会议室的预设参数信息，确定各个终端在所述虚拟会议室中的位置信息；

27.根据权利要求26所述的处理设备，其特征在于，所述第一确定单元，包括：

第一发送子单元，用于将虚拟会议室的预设参数信息，发送给参与所述多方会话的各个终端；

第一接收子单元，用于接收每一终端根据所述预设参数信息反馈的自身在所述虚拟会议室中的位置信息。

28.根据权利要求27所述的处理设备，其特征在于，若所述各个终端中的第一终端对应N个声源，则所述第一终端反馈的位置信息包含每一个声源在所述虚拟会议室中的位置信息，且任意两个位置信息对应的所述虚拟会议室中的位置之间的距离大于预设阈值，N为大于1的整数。

29.根据权利要求23所述的处理设备，其特征在于，所述第一输出模块，包括：

第一输出子模块，用于根据所述位置信息，将所述位置信息对应的终端输入的音频数据进行空间滤波处理并输出。

30.根据权利要求29所述的处理设备，其特征在于，所述第一输出子模块，包括：

第一生成单元，用于根据所述位置信息，生成各个终端对应的空间滤波系数；

第一处理单元，用于根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据进行空间滤波处理；

第一输出单元，用于将空间滤波处理后的音频数据进行输出。

31.根据权利要求30所述的处理设备，其特征在于，所述第一生成单元，包括：

第一确定子单元，用于根据所述位置信息，确定在所述虚拟会议室中每一终端与其他终端之间的相对位置信息；

第一生成子单元，用于根据每一终端在所述虚拟会议室中的位置信息以及对应的所述相对位置信息，生成各个终端对应的空间滤波系数。

32.根据权利要求30所述的处理设备，其特征在于，所述第一处理单元，包括：

第一处理子单元，用于根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据生成为具有距离信息和方位信息的音频数据。

33.根据权利要求30所述的处理设备，其特征在于，所述第一输出单元，包括：

第二处理子单元，应用于根据各个终端的音频播放设备的数量，将空间滤波处理后的音频数据生成为对应数量声道的音频数据并发送给各个终端进行输出。

34.根据权利要求30所述的处理设备，其特征在于，所述第一输出单元，包括：

第三处理子单元，用于将空间滤波处理后的音频数据发送给各个终端，触发各个终端根据自身的音频播放设备的数量将空间滤波处理后的音频数据生成为对应数量声道的音频数据进行输出。

35.根据权利要求30所述的处理设备，其特征在于，若所述各个终端中的第一终端对应N个声源，则所述第一终端在所述虚拟会议室中对应N个位置，且每一个位置对应一个声源，任意两个位置之间的距离大于预设阈值；其中，N为大于1的整数。

36.根据权利要求35所述的处理设备，其特征在于，所述第一确定模块，包括：

第一接收子模块，用于接收第一终端输入的音频数据；

第一提取子模块，用于从所述音频数据中提取每一声源的声频特征信息；

第二确定子模块，用于根据提取的声频特征信息，确定N的值；

第三确定子模块，用于根据N的值，确定所述第一终端在所述虚拟会议室中的N个位置信息。

37.根据权利要求36所述的处理设备，其特征在于，所述第一生成单元，包括：

第二生成子单元，用于根据所述位置信息，生成各个声源对应的空间滤波系数；

所述第一处理单元，包括：

第四处理子单元，用于根据所述空间滤波系数，将输入的所述位置信息对应的声源的音频数据进行空间滤波处理。

38.根据权利要求30所述的处理设备，其特征在于，还包括：

第二确定模块，用于在将所述位置信息对应的终端输入的音频数据进行空间滤波处理并输出之前，根据所述虚拟会议室的预设参数信息，确定所述虚拟会议室对应的混响滤波参数信息；

所述第一处理单元，包括：

第五处理子单元，用于根据所述空间滤波系数，将所述位置信息对应的终端输入的音频数据进行空间滤波处理，得到第一数据；

第六处理子单元，用于根据所述虚拟会议室的类型信息，在所述第一数据中加入噪声数据，形成第二数据；

第七处理子单元，用于根据所述混响滤波参数信息，对所述第二数据进行混响滤波处理；

第一输出子单元，用于将混响滤波处理后的第二数据进行输出；

39.一种终端，其特征在于，包括：

40.根据权利要求39所述的终端，其特征在于，所述第一处理模块，包括：

第一处理子模块，用于若所述终端对应N个声源，则根据所述虚拟会议室的预设参数信息，确定每一声源在所述虚拟会议室中的位置信息；

41.根据权利要求39所述的终端，其特征在于，所述第一处理模块，包括：

第四确定子模块，用于根据所述虚拟会议室的预设参数信息以及所述终端的优先等级信息，确定所述终端在所述虚拟会议室中的位置信息。

42.根据权利要求39所述的终端，其特征在于，还包括：

第二处理模块，用于在接收处理设备发送的虚拟会议室的预设参数信息之前，向所述处理设备发送加入预设会话的请求信息，触发所述处理设备创建多方会话的虚拟会议室。

43.根据权利要求39所述的终端，其特征在于，还包括：

第三处理模块，用于根据所述虚拟会议室的预设参数信息，确定所述终端在所述虚拟会议室中的位置信息，并反馈给所述处理设备之后，接收所述处理设备发送的音频数据并进行输出。

44.根据权利要求43所述的终端，其特征在于，所述第三处理模块，包括：

第二接收子模块，用于接收所述处理设备发送的音频数据；

第二处理子模块，用于根据所述终端的音频播放设备的数量，将所述音频数据生成为对应数量声道的音频数据进行输出。

45.一种处理设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至16中任一项所述的音频处理方法的步骤。

46.一种终端，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求17至22中任一项所述的音频处理方法的步骤。

47.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至16中任一项所述的音频处理方法的步骤；或者

所述计算机程序被所述处理器执行时实现如权利要求17至22中任一项所述的音频处理方法的步骤。