CN117319879A

CN117319879A - 处理音频数据的方法、装置、设备和存储介质

Info

Publication number: CN117319879A
Application number: CN202211146042.7A
Authority: CN
Inventors: 张磊
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-06-28
Filing date: 2022-09-20
Publication date: 2023-12-29

Abstract

本申请实施例公开了一种处理音频数据的方法、装置、设备和存储介质，属于音频处理技术领域。所述方法包括：确定目标扩声区域的范围信息；获取目标麦克风阵列的各通道的音频数据；在所述音频数据中，提取声源位于所述目标扩声区域内的目标音频数据，其中，所述目标音频数据被用于输出播放。采用本申请实施例，可以减少会议所受的干扰。

Description

处理音频数据的方法、装置、设备和存储介质

本申请要求于2022年06月28日提交的申请号为202210746177.0、发明名称为“一种大会场互动交流扩声的方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及音频处理技术领域，特别涉及一种处理音频数据的方法、装置、设备和存储介质。

背景技术

随着智能化办公的发展，线上会议以及大型会议在日常生活中越来越常见。相关技术中使用麦克风阵列对语音进行拾取，语音经过放大后被扬声器播放出来。

使用麦克风阵列进行拾音，会对会场内的声音进行无差别的放大，将与会议无关声音(如某人在低声打电话)也进行了放大，导致会议受到干扰。

发明内容

本申请实施例提供了一种处理音频数据的方法、装置、设备和存储介质，能够解决相关技术的问题。技术方案如下：

第一方面，提供了一种处理音频数据方法，该方法包括：确定目标扩声区域的范围信息，获取目标麦克风阵列采集的各通道的音频数据，然后，基于目标扩声区域的范围信息，在音频数据中，提取声源位于目标扩声区域内的目标音频数据，其中，目标音频数据被用于输出播放。

本申请实施例所示的方案，可以应用到参与视频会议的每个会场中。其中，每个会场的目标扩声区域的范围信息可以由会议相关人员手动设置，也可以基于声源定位自动设置。在获取目标音频数据后，可以在本会场(本地会场)对目标音频数据进行输出播放，也可以将目标音频数据发送至其他会场进行输出播放。

通过上述处理，参与视频会议的任意一个会场，可以只将该会场中目标扩声区域内声源发出的声音输出播放，而目标扩声区域外存在的声音，将会被屏蔽掉，从而，可以减少会议所受的干扰。而且，在扩声播放的场景下(在会场中采用扬声器对采集的声音扩声播放)，在本方案中，如果会场中的扬声器不在目标扩声区域内，就可以很好的防止回声导致的啸叫。啸叫的产生原理是：如果对麦克风采集的声音进行无差别放大并通过扬声器播放，那么麦克风会采集到扬声器播放的声音，并再次通过扬声器扩声播放，从而形成循环扩声播放，进而产生啸叫。可见，在本方案中，如果会场中的扬声器不在目标扩声区域内，那么即使麦克风采集到扬声器播放的声音，也不会对该声音进行播放，这样就不会形成循环放大播放，从而不会产生啸叫。

在一种可能的实现方式中，可以基于各通道的音频数据，确定音频数据对应的声源方位信息，然后，将至少一个通道的音频数据、声源方位信息和目标扩声区域的范围信息，输入声音分离模型，声音分离模型可以输出声源位于目标扩声区域内的目标音频数据。

本申请实施例所示的方案，声源方位信息可以是参考通道之外的每个其他通道相对于参考通道的通道间相位差特征，或者也可以是声源相对于麦克风阵列的一个方向角，或者还可以是各通道的原始采集的音频数据，或者还可以是各通道的经过时频转换后的音频数据，或者还可以是原始采集的音频数据经过机器学习模型提取的方位特征数据，等等。声音分离模型输入和输出的音频数据，可以为音频时域数据，也可以为频谱数据。至少一个通道的音频数据可以是参考通道的音频数据，也可以是其他通道的音频数据。

上述处理中，使用声音分离模型提取目标音频数据，可以减少目标扩声区域外的声源对会议产生的干扰。

在一种可能的实现方式中，当存在多个目标麦克风阵列时，对于多个目标麦克风阵列中的每个目标麦克风阵列，基于每个目标麦克风阵列的各通道的音频数据，确定每个目标麦克风阵列对应的声源方位信息，然后，将多个目标麦克风阵列中的每个目标麦克风阵列的至少一个通道的音频数据、每个目标麦克风阵列对应的声源方位信息、目标扩声区域的范围信息和每个目标麦克风阵列对应的位置参考信息，输入声音分离模型，声音分离模型可以输出声源位于目标扩声区域内的目标音频数据。其中，位置参考信息用于直接或间接指示对应的目标麦克风阵列中各麦克风单元的位置。

本申请实施例所示的方案，位置参考信息可以包括目标麦克风阵列的等效中心坐标、参考麦克风单元(对应参考通道的麦克风单元)的坐标和阵型结构信息，阵型结构信息用于指示参考麦克风单元和其他麦克风单元之间的相对位置，或者，位置参考信息还可以为目标麦克风阵列中所有麦克风单元的位置坐标信息。

上述处理中，在使用多个目标麦克风阵列的情况下，使用声音分离模型提取目标音频数据，可以减少目标扩声区域外的声源对会议产生的干扰。

在一种可能的实现方式中，可以将各通道的音频数据和目标扩声区域的范围信息，输入声音分离模型，声音分离模型可以输出声源位于目标扩声区域内的目标音频数据。

本申请实施例所示的方案，声音分离模型输入和输出的目标音频数据，可以为音频时域数据，也可以为频谱数据。

上述处理中，直接使用声音分离模型对各通道的音频数据进行处理得到目标音频数据，可以简化处理，提高处理效率。

在一种可能的实现方式中，当存在多个目标麦克风阵列时，可以将多个目标麦克风阵列中的每个目标麦克风阵列的各通道的音频数据、每个目标麦克风阵列对应的位置参考信息和目标扩声区域的范围信息，输入声音分离模型，声音分离模型可以输出声源位于目标扩声区域内的目标音频数据。其中，位置参考信息用于直接或间接指示对应的目标麦克风阵列中各麦克风单元的位置。

上述处理中，在使用多个目标麦克风阵列的情况下，直接使用声音分离模型对多个目标麦克风阵列的各通道的音频数据进行处理得到目标音频数据，可以简化处理，提高处理效率。

在一种可能的实现方式中，可以确定目标发言人的位置，然后，基于目标发言人的位置，确定目标扩声区域的范围信息。

本申请实施例所示的方案，确定目标发言人的位置的方式可以为手动选择，也可以通过声源定位动态选择。

上述处理中，通过目标发言人的位置确定目标扩声区域，可以得到更准确的目标扩声区域。

在一种可能的实现方式中，可以以目标发言人的位置为圆心、指定长度为半径确定圆形区域作为目标扩声区域，以确定目标扩声区域的范围信息。

上述处理中，提供了一种简便的确定目标扩声区域的范围信息的方法。

在一种可能的实现方式中，获取目标麦克风阵列的各通道的音频数据之前，可以确定目标发言人的位置，然后，基于目标发言人的位置和多个麦克风阵列的位置，在多个麦克风阵列中选择至少一个目标麦克风阵列。

上述处理中，使用根据目标发言人位置选择的目标麦克风阵列采集音频数据，防止目标麦克风阵列之外的麦克风采集到的音频数据产生干扰。

在一种可能的实现方式中，可以在多个麦克风阵列中，选择与目标发言人的距离小于距离阈值的至少一个目标麦克风阵列，或者，在多个麦克风阵列中，选择与目标发言人的距离最小的目标麦克风阵列。

上述处理中，选择距离较近的麦克风阵列作为目标麦克风，防止其他距目标发言人位置较远的麦克风阵列采集到的音频数据产生干扰。

在一种可能的实现方式中，可以响应于在图像中的选择操作，确定图像中与选择操作相对应的目标面部图像，然后，基于目标面部图像在图像中的像素区域，确定目标面部图像对应的人物的实际空间位置，即目标发言人的位置。

本申请实施例所示的方案，在图像中的选择操作可以通过鼠标、触屏、远程书写笔等工具进行。在图像中的选择的操作也可以多种多样，在图像中的选择操作可以为点选、圈选等。

上述处理中，通过在图像中的选择操作，便于设置或更改目标发言人的位置。

在一种可能的实现方式中，可以基于目标面部图像在图像中的像素区域的垂直方向长度，确定目标面部图像对应的人物与图像采集设备的距离，然后，基于像素区域在图像中的水平位置范围的中间值，确定人物相对于图像采集设备的方向角，再后，基于该距离和该方向角，确定人物的实际空间位置。

上述处理中，根据目标面部图像在图像中的像素区域确定目标发言人的实际空间位置，可以准确的确定目标发言人位置。

在一种可能的实现方式中，可以基于一个或多个麦克风阵列采集的音频数据，确定目标发言人的位置。

本申请实施例所示的方案，可以通过SRP等声源定位算法对采集的音频数据进行处理，以确定目标发言人的位置，或者，也可以通过机器学习模型对采集的音频数据进行处理，以确定目标发言人的位置。通过上述这些方法，可以确定出一个目标发言人的位置或多个目标发言人的位置。

上述处理中，可以通过对麦克风阵列采集的音频数据进行声源定位，根据声源定位的结果动态调整目标发言人位置，可以准确的确定目标发言人位置。

在一种可能的实现方式中，可以响应于选定图像中的像素区域的操作，确定选定的像素区域对应的实际空间区域的范围信息，将实际空间区域的范围信息作为目标扩声区域的范围信息。

本申请实施例所示的方案，根据图像中的像素区域确定对应的实际空间区域的范围信息的方式，可以通过图像位置与实际空间位置(可以是在水平面内的水平坐标)的转换关系确定实际空间区域的范围信息，还可以基于图像点对应的实际空间点与摄像机之间的距离和方向角确定实际空间区域的范围信息。

上述处理中，通过选定图像中的像素区域的操作，便于设置或更改目标扩声区域的位置和范围信息。

第二方面，提供了一种处理音频数据方法，该方法包括：确定目标发言人的位置，然后，基于目标发言人的位置和多个麦克风的位置，在多个麦克风中选择至少一个目标麦克风，最后，屏蔽目标麦克风之外的其他麦克风检测的音频数据，并输出目标麦克风检测的音频数据。

本申请实施例所示的方案，可以将选择的目标麦克风采集的声音输出，除目标麦克风之外的麦克风采集的与会议无关的声音将会被屏蔽掉，从而，可以减少会议所受的干扰。

在一种可能的实现方式中，可以响应于在图像中的选择操作，确定图像中与选择操作相对应的目标面部图像，然后，基于目标面部图像在图像中的像素区域，确定目标面部图像对应的人物的实际空间位置，将实际空间位置作为目标发言人的位置。

本申请实施例所示的方案，在图像中的选择操作可以为点选、圈选等。

在一种可能的实现方式中，可以基于目标面部图像在图像中的像素区域的垂直方向长度，确定目标面部图像对应的人物与图像采集设备的距离，然后，基于像素区域在图像中的水平位置范围的中间值，确定人物相对于图像采集设备的方向角，再然后，基于距离和方向角，确定人物的实际空间位置。

在一种可能的实现方式中，可以基于一个或多个麦克风采集的音频数据，确定目标发言人的位置。

在一种可能的实现方式中，可以基于目标发言人的位置和多个麦克风的位置，在多个麦克风中，选择与目标发言人的距离小于距离阈值的至少一个目标麦克风，或者，基于目标发言人的位置和多个麦克风的位置，在多个麦克风中，选择与目标发言人的距离最小的目标麦克风。

第三方面，提供了一种处理音频数据的装置，该装置包括至少一个模块，该至少一个模块用于实现上述第一方面及其可能的实现方式所提供的处理音频数据的方法。

第四方面，提供了一种处理音频数据的装置，该装置包括至少一个模块，该至少一个模块用于实现上述第二方面及其可能的实现方式所提供的处理音频数据的方法。

第五方面，提供了一种处理音频数据的系统，该系统包括计算机设备、目标麦克风阵列、音频输出设备和图像采集设备。计算机设备用于执行上述第一方面、第二方面及其可能的实现方式所提供的处理音频数据的方法。目标麦克风阵列用于采集音频数据。音频输出设备用于对目标音频数据进行输出播放。图像采集设备用于采集图像。

第六方面，提供了一种计算机设备，计算机设备包括存储器和处理器，存储器用于存储计算机指令；处理器执行存储器存储的计算机指令，以使计算机设备执行第一方面、第二方面及其可能的实现方式的方法。

第七方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序代码，响应于计算机程序代码被计算机设备执行，计算机设备执行第一方面、第二方面及其可能的实现方式的方法。

第八方面，提供了一种计算机程序产品，计算机程序产品包括计算机程序代码，响应于计算机程序代码被计算机设备执行，计算机设备执行第一方面、第二方面及其可能的实现方式的方法。

附图说明

图1是本申请实施例提供的一种音频处理系统的示意图；

图2是本申请实施例提供的一种控制设备的结构示意图；

图3是本申请实施例提供的一种会议场景的示意图；

图4是本申请实施例提供的一种处理音频数据方法的流程图；

图5是本申请实施例提供的一种会议场景的示意图；

图6是本申请实施例提供的一种处理音频数据方法的流程图；

图7是本申请实施例提供的一种会议场景的示意图；

图8是本申请实施例提供的一种设置目标扩声区域方法的流程图；

图9是本申请实施例提供的一种设置目标扩声区域的界面操作示意图；

图10是本申请实施例提供的一种分配麦克风阵列方法的流程图；

图11是本申请实施例提供的一种确定目标发言人位置方法的流程图；

图12是本申请实施例提供的一种选择目标发言人的界面操作示意图；

图13是本申请实施例提供的一种处理音频数据方法的流程图；

图14是本申请实施例提供的一种处理过程示意图；

图15是本申请实施例提供的一种处理过程示意图；

图16是本申请实施例提供的一种处理过程示意图；

图17是本申请实施例提供的一种处理过程示意图；

图18是本申请实施例提供的一种处理音频数据装置的结构示意图；

图19是本申请实施例提供的一种处理音频数据装置的结构示意图。

具体实施方式

下面对本实施例中使用的一些名词进行解释。

音频数据：指包含音频的完整信息的数据，可以是麦克风采集到的音频时域数据，也可以是音频时域数据经短时傅里叶变换得到的频谱数据。

目标发言人：会议中进行发言的人或者被选择将要进行发言的人。

像素区域：图像中的区域，该区域由多个像素组成，故可称作像素区域。

麦克风阵列：由多个麦克风单元组成的用于音频采集的设备。

目标麦克风阵列：用于采集目标发言人的音频数据的麦克风阵列。

通道：麦克风阵列中的每个麦克风单元对应一个通道，每个麦克风单元都可以采集各自的音频数据，所以麦克风阵列可以采集到多个通道的音频数据。

参考通道：指在麦克风阵列中预先设定的基准麦克风单元所对应的通道，其采集的音频数据作为参考音频数据，其他通道的音频数据与参考音频数据的相位差可以用于表示声源方向。

声源方位信息：用于指示音频数据的声源相对于麦克风阵列的方位信息。声源方位信息可以包括参考通道之外的每个其他通道的频谱数据相对于参考通道的频谱数据的相位差信息，或者也可以是声源相对于麦克风阵列的一个方向角(具体可以是声源与麦克风阵列等效中心连线与麦克风阵列的预设零度指向的夹角)，或者还可以是各通道的原始采集的音频数据，或者还可以是各通道的经过时频转换后的音频数据，或者还可以是原始采集的音频数据经过机器学习模型提取的方位特征数据，等等。

目标扩声区域：会议中需要进行扩声的区域。可以是目标发言人所处位置及其附近的一定范围。目标扩声区域可以是水平面内的平面区域。

目标扩声区域的范围信息：代表目标扩声区域在实际空间中的位置的参数，如圆形目标扩声区域的圆心位置及半径、矩形区域的顶点位置及边长。

声音分离模型：用于在输入的音频数据中提取声源在某指定区域内的音频数据。声音分离模型可以采用机器学习模型，如卷积神经网络、循环神经网络和递归神经网络等。

本申请实施例提供了一种处理音频数据的方法，该方法可以由音频处理系统实现。图1是本申请实施例提供的一种音频处理系统的结构示意图，该音频处理系统可以包括麦克风阵列、控制设备、图像采集设备和音频输出设备等。

麦克风阵列用于音频采集。从布置的角度看，可以是分布式麦克风阵列或者集成式麦克风阵列。分布式麦克风阵列是独立的不集成在其它设备上的麦克风阵列，集成式麦克风阵列是集成在其它设备上的麦克风阵列。从麦克风单元分布的角度看，可以采用一维分布，如线阵，二维分布，如环阵等，三维分布，如球面阵，等等。

控制设备用于音频处理。控制设备可以是服务器、终端或集成在其他设备中的一个组件等。上述服务器可以是单独的服务器或服务器组。上述终端可以是布置在会议室中的设备，或者是布置在企业机房中的设备，还可以是便携设备，如智慧屏、台式计算机、笔记本计算机、手机、平板电脑、智能手表等。上述组件可以集成在智慧屏、图像采集设备、麦克风阵列等设备。

图像采集设备用于图像采集，可以是分布式摄像机或集成式摄像机。

音频输出设备用于扩声播放处理后的音频数据。

本申请实施例提供的处理音频数据的方法的执行主体可以为音频处理系统中的控制设备。图2是本申请实施例提供的一种控制设备的结构示意图，从硬件组成上来看，控制设备的结构可以如图2所示，包括处理器、存储器和通信部件。

处理器210可以是中央处理器(central processing unit，CPU)或片上系统(system on chip，SoC)等，处理器210可以用于确定音频数据对应的声源方位信息，还可以用于提取声源位于目标扩声区域内的目标音频数据等。

存储器220可以包括各种易失性存储器或非易失性存储器，如固态硬盘(solidstate disk，SSD)、动态随机存取存储器(dynamic random access memory，DRAM)内存等。存储器220可以用于存储记录处理音频数据过程中使用到的初始数据、中间数据和结果数据，例如，麦克风阵列采集到的音频数据，音频数据对应的声源方位信息，麦克风阵列的位置及目标发言人的位置，等等。

通信部件230可以是有线网络连接器、超宽带技术(ultra wide band，UWB)、无线保真(wireless fidelity，WiFi)模块、蓝牙模块、蜂巢网通信模块等。通信部件230可以用于与其他设备进行数据传输，其他设备可以是服务器、也可以是终端等。例如，控制设备可以通过蓝牙模块接收麦克风阵列采集的音频数据，或者可以通过WiFi模块将音频数据发送至服务器传输至远端会场。

本申请实施例提供的处理音频数据的方法，可以用于多种场景，例如会议场景、教学场景或节目录制场景，等等。

在实际应用中，会议场景有很多的可能性。一种非常常见的会议场景是长条桌会议场景，该会议场景可以设置有条形会议桌和若干个座位，座位布置在条形会议桌周围，可以在条形会议桌一端正对的墙面上挂装会议终端(如智慧屏)，会场内图像采集设备(如摄像机)可以集成在会议终端上，也可以是安装在会场中的分布式摄像机。麦克风阵列可以使用集成在会议终端上的麦克风阵列，也可以使用部署在会场中的分布式麦克风阵列，或者两个结合使用。会议进行过程中，参会人员可以坐在座位上进行会议。本申请实施例以长条桌会议场景为例进行方案说明，其他会议场景、教学场景或节目录制场景也可以采用类似的处理方式，本申请实施例不再赘述。相应的控制设备以会议终端为例。

如图3所示，给出了本申请实施例的一种会议场景，该会议场景中，可以包括一个麦克风阵列。图中示出的麦克风阵列是集成式麦克风阵列，包括线型排布的多个麦克风单元，集成于会议终端，位于会议终端的屏幕上沿中部。当然也可以采用其他形式的麦克风阵列，例如，采用集成于会议终端的二维麦克风阵列，包括屏幕四个顶点处的麦克风单元和屏幕上沿中部的线型排布的多个麦克风单元，或者，采用环形的分布式麦克风阵列，放置在长条会议桌上。

对于此场景，本申请实施例提供的处理音频数据的方法的处理流程可以如图4所示，包括如下步骤：

401，确定目标扩声区域的范围信息。

其中，目标扩声区域可以由会议相关人员(如主讲人)手动设置或者通过声源定位自动设置，会议终端可以对目标扩声区域的范围信息进行存储。设置目标扩声区域的方式在后面内容中进行详细说明。

402，获取目标麦克风阵列的各通道的音频数据。

其中，目标麦克风阵列可以是一维麦克风阵列、二维麦克风阵列或三维麦克风阵列等。

目标麦克风阵列采集到多个通道的原始音频时域数据，将采集到的原始音频时域数据传输给会议终端的处理器210。因为在有些场景下，在目标麦克风阵列采集会场中的音频数据的过程中，扬声器也在实时的播放声音，播放出的声音可能会被目标麦克风阵列采集到，形成干扰，所以，处理器210可以对原始音频时域数据进行回声抵消，抑制扬声器播放的声音，得到目标麦克风阵列各通道的回声抵消后的音频时域数据。该处理过程可以以帧为单位进行处理，帧时长可以基于对精度的要求进行设置。

可选的，也可以对采集的原始音频时域数据进行短时傅里叶变换(short-timefourier transform，STFT)，得到对应的频域数据，对频域数据进行回声抵消。使用回声抵消后的频域数据进行后续处理。

403，基于各通道的音频数据，确定音频数据对应的声源方位信息。

其中，声源方位信息可以包括参考通道之外的其他通道相对于参考通道的相位差信息。声源方位信息可以采用通道间相位差(Inter-channel phase difference，IPD)特征表示。

在获取到各通道的回声抵消后的音频时域数据后，可以对每个通道的回声抵消后的音频时域数据进行短时傅里叶变换，得到每个通道的频谱数据。然后，基于如下式(1)计算参考通道外的每个其他通道相对于参考通道的相位差。

其中，Y是每个通道的频谱数据的复数系数。下标i代表第i个麦克风单元，下标j代表第j个麦克风单元，i和j的取值范围为(1-M)且为整数，M为目标麦克风阵列中麦克风单元的总数量，i和j为两个不同数值。t代表音频时域数据的第t帧，t的取值范围为(1-N)且为整数，N为采集的音频数据的总帧数。f代表频率索引，频率索引的取值范围与频率的划分粒度有关，例如，取值范围为(1-1000)且为整数。

Φ_{(i，j，t，f)}代表第i个麦克风单元与第j个麦克风单元之间相位差，为了实际使用方便，可以用相位差的余弦值来构成IPD特征。例如，N个麦克风单元构成的阵列，选取第1个通道为参考通道，IPD特征可以表示为如下式(2)。

404，将至少一个通道的音频数据、声源方位信息和目标扩声区域的范围信息，输入声音分离模型，得到声源位于目标扩声区域内的目标音频数据。

基于声源方位信息的不同，该步骤进行音频数据提取的处理也有多种可能的方式。当声源方位信息包括其他通道相对于参考通道的相位差信息时，处理方式可以是：将参考通道的音频数据、其他通道相对于参考通道的相位差信息和目标扩声区域的范围信息，输入声音分离模型，得到声源位于目标扩声区域内的目标音频数据。

其中，声音分离模型在训练和使用过程中目标麦克风阵列的位置及姿态保持不变。

处理器210将参考通道的频谱数据、上述IPD特征、目标扩声区域的范围信息输入声音分离模型，声音分离模型则可以输出目标频谱数据，该目标频谱数据的声源在目标扩声区域内。经过声音分离模型的处理，对于输出的参考通道的频谱数据，其中声源在目标扩声区域内的部分被提取出来，声源在目标扩声区域外的部分被抑制掉。然后，可以对目标频谱数据进行短时傅里叶逆变换，得到对应的目标音频时域数据。

可选的，另一种处理方式：将参考通道的音频时域数据、上述IPD特征、目标扩声区域的范围信息输入声音分离模型，输出目标音频时域数据，这种情况则不需要再对目标音频时域数据进行短时傅里叶逆变换。

可选的，除按照上述步骤403、404提取目标音频数据，还可以将各通道的音频数据和目标扩声区域的范围信息，直接输入声音分离模型，得到声源位于目标扩声区域内的目标音频数据。

405，输出目标音频数据。

得到目标音频时域数据后，可以对目标音频时域数据进行残留回声抑制、降噪、去混响、陷波、移频、增益调节等处理。然后，将处理后的目标音频数据传输至扬声器进行播放。另外，处理后的目标音频数据还可以作为回声抑制的输入数据。

其中，目标音频时域数据中可能还会残留一些目标扩声区域外的声音干扰，降噪处理可以进一步抑制这种干扰。

对于多会场的场景，会议终端可以先将处理后的目标音频数据与远端会场发送过来的音频数据进行混音，再将混音后的音频数据传输至扬声器进行播放。同时，会议终端可以将处理后的目标音频数据发送至远端会场。

另外，对于多会场的场景，可选的，会议终端还可以处理得到另一路音频数据(可称作备选音频数据)，备选音频数据中可以是没有对目标扩声区域外的声音进行抑制的音频数据，会议终端可以将目标音频数据和备选音频数据同时发送至远端会场，供远端会场中的相关人员选择。处理得到备选音频数据的方法可以是：基于目标麦克风阵列各通道的音频数据，确定多个方向(可以将圆周划分为4个方向或8个方向等)对应的音频数据，每个方向对应的音频数据可以称为一个波束，在各个波束中选择音量最大的波束，然后进行残留回声抑制、降噪、去混响、陷波、移频、增益调节等处理得到备选音频数据。

这样，远端会场可以基于实际需求选择音频数据进行播放，当需要专注收听发言人的发言时，可以选择播放目标音频数据，当需要了解发言人之外的与会人的状态(如是否交头接耳)时，可以选择播放备选音频数据。

如图5所示，给出了本申请实施例的一种会议场景，该会议场景中，可以包括多个目标麦克风阵列。图中示出的多个目标麦克风阵列包括一个集成式麦克风阵列和一个分布式麦克风阵列。其中，集成式麦克风阵列采用的是集成于会议终端的二维麦克风阵列，包括屏幕四个顶点处的麦克风单元和屏幕上沿中部的线型排布的多个麦克风单元。另外，分布式麦克风阵列采用的是放置在会议桌上的环形的分布式麦克风阵列，放置在长条会议桌上。当然，也可以采用更多数量的目标麦克风阵列，如3个、4个等，而且多个目标麦克风阵列可以全部为集成式麦克风阵列、也可以全部为分布式麦克风阵列、还可以两种麦克风阵列混合使用。

对于此场景，本申请实施例提供的处理音频数据的方法的处理流程可以如图6所示，包括如下步骤：

601，确定目标扩声区域的范围信息。

602，获取每个目标麦克风阵列的各通道的音频数据。

多个目标麦克风阵列的各通道采集原始音频时域数据，将采集到的原始音频时域数据传输给会议终端的处理器210。由于在会场中在声音采集的过程中，扬声器也在实时的播放声音，播放出的声音可能会被目标麦克风阵列采集到，形成干扰，所以，处理器210可以对原始音频时域数据进行回声抵消，抑制扬声器播放的声音，得到每个目标麦克风阵列各通道的回声抵消后的音频时域数据。

可选的，也可以对采集的原始音频时域数据进行短时傅里叶变换，得到对应的频域数据，对频域数据进行回声抵消。使用回声抵消后的频域数据进行后续处理。

603，基于每个目标麦克风阵列的各通道的音频数据，确定每个目标麦克风阵列对应的声源方位信息。

因为声源相对于不同的目标麦克风阵列的方位是不同的，所以，每个目标麦克风阵列都对应有一个声源方位信息。对于每个目标麦克风阵列来说，其都包括有一个参考通道，其对应的声源方位信息包括参考通道之外的其他通道相对于参考通道的相位差信息。声源方位信息可以采用每个目标麦克风阵列的IPD特征表示，各目标麦克风阵列的IPD特征可以按步骤402的处理方法得到。需要分别得到每个目标麦克风阵列中参考通道的频谱数据、每个目标麦克风阵列的IPD特征。基于如下式(3)计算参考通道外的每个其他通道相对于参考通道的相位差。

其中，Y是每个通道的频谱数据的复数系数。下标i代表第i个麦克风单元，下标j代表第j个麦克风单元，i和j的取值范围为(1-M)，M为目标麦克风阵列中麦克风单元的总数量，i和j为两个不同数值。t代表音频时域数据的第t帧，t的取值范围为(1-N)，N为采集的音频数据的总帧数。f代表频率索引，频率索引的取值范围与频率的划分粒度有关，例如，取值范围为(1-1000)。x代表第x个目标麦克风阵列，x的取值范围为(1-X)，X为目标麦克风阵列的总数量。

Φ_{(i，j，t，f，x)}代表第x个目标麦克风阵列中第i个麦克风单元与第j个麦克风单元之间相位差，为了实际使用方便，可以用相位差的余弦值来构成IPD特征。例如，存在两个目标麦克风阵列，目标麦克风阵列1是N个麦克风单元构成的阵列，目标麦克风阵列2是M个麦克风单元构成的阵列。选取每个目标麦克风阵列中第1个通道为参考通道，各目标麦克风阵列的IPD特征可以表示为如下式(4)和式(5)。

604，将每个目标麦克风阵列的至少一个通道的音频数据、每个目标麦克风阵列对应的声源方位信息、目标扩声区域的范围信息和多个目标麦克风阵列的位置参考信息，输入声音分离模型，得到声源位于目标扩声区域内的目标音频数据。

其中，位置参考信息用于直接或间接指示目标麦克风阵列中各麦克风单元的位置。例如，位置参考信息可以包括目标麦克风阵列的等效中心坐标、参考麦克风单元(对应参考通道的麦克风单元)的坐标和阵型结构信息，阵型结构信息用于指示参考麦克风单元和其他麦克风单元之间的相对位置，或者，位置参考信息还可以为目标麦克风阵列中所有麦克风单元的位置坐标信息。

基于声源方位信息的不同，该步骤进行音频数据提取的处理也有多种可能的方式。当声源方位信息包括其他通道相对于参考通道的相位差信息时，处理方式可以是：将每个目标麦克风阵列的参考通道的音频数据、其他通道相对于参考通道的相位差信息、目标扩声区域的范围信息和每个目标麦克风阵列的位置参考信息，一起输入声音分离模型，得到声源位于目标扩声区域内的目标音频数据。

其中，目标麦克风阵列的位置的确定方法在后面内容中会有详细说明，此处先不进行介绍。

处理器210将多个目标麦克风阵列的参考通道的频谱数据、IPD特征、目标扩声区域的范围信息和多个目标麦克风阵列的位置参考信息一起输入声音分离模型，声音分离模型则可以输出目标频谱数据，该目标频谱数据的声源在目标扩声区域内。经过声音分离模型的处理，对于输出的参考通道的频谱数据，其中声源在目标扩声区域内的部分被提取出来，声源在目标扩声区域外的部分被抑制掉。然后，可以对目标频谱数据进行短时傅里叶逆变换，得到对应的目标音频时域数据。

可选的，除按照上述步骤603、604提取目标音频数据，还可以将多个目标麦克风阵列的各通道的音频数据、多个目标麦克风阵列的位置参考信息和目标扩声区域的范围信息，输入声音分离模型，得到声源位于目标扩声区域内的目标音频数据。

605，输出目标音频数据。

相应的处理过程与步骤405类似，可以参见步骤405的相关说明内容。

针对上述各流程中涉及的目标扩声区域，本申请实施例还提供了设置目标扩声区域的方法。该方法中主讲人可以在会场图像中进行区域选择。相应的在会场可以如图7所示，可以设置一个或多个图像采集设备。例如，可以采用集成在会议终端上的摄像机，或分布在会场内的摄像机如安装在会议室墙上的摄像机，也可以两种摄像机同时使用。图7中的会议场景只包括一个麦克风阵列，当然该方法也可以应用于多麦克风阵列的会议场景。相应的处理流程如图8所示，可以包括如下的步骤：

801，显示图像采集设备拍摄的图像。

摄像机对会场进行拍摄，将拍摄的图像发送至会议终端，在会议终端上显示该摄像机拍摄的图像。采用多个摄像机时，可以在屏幕上同时显示所有摄相机拍摄到的图像，主讲人此时可以在所有图像中选择进行下一步操作的图像，会议终端则可以仅保留被选择的图像进行放大显示。另外，采用多个摄像机时，也可以设定其中一个摄像机为默认摄像机，会议终端显示默认摄像机拍摄的图像。

802，响应于选定图像中的像素区域的操作，确定所选定的像素区域。

选定图像中的像素区域的操作可以通过鼠标、触屏、远程书写笔等工具进行。操作方式也可以多种多样，下面对其中几种可行的操作方式进行说明。

操作方式一，圈选

以鼠标操作为例，如图9所示，主讲人可以点击鼠标键，然后拖动鼠标，使鼠标光标在图像中沿他想要划定的区域边缘运动。会议终端记录鼠标光标的运动轨迹，确定该运动轨迹在图像中划定的像素区域，如图9中的虚线包围的区域。

操作方式二，点选

以鼠标操作为例，主讲人可以操作鼠标在图像中点击多个位置点。会议终端则可以在图像中确定以此多个位置点为顶点的像素区域。

803，确定像素区域对应的实际空间区域的范围信息，作为目标扩声区域的范围信息。

其中，范围信息可以是在某个高度的水平面内的平面范围信息。

方法一：可以预先建立图像位置与实际空间位置(可以是在水平面内的水平坐标)的转换关系。该转换关系可以是转换公式，分别对横坐标和纵坐标进行转换，或者，该转换关系转换表，可以记录图像位置与实际空间位置的对应关系。基于该转换关系，可以将像素区域的范围信息转换为对应的实际空间区域的范围信息，作为目标扩声区域的范围信息。

方法二：可以预先建立图像坐标与实际空间中距离的转换关系。在主讲人操作确定的像素区域后，对于像素区域内的任意图像点，可以基于转换关系确定图像点对应的实际空间点与摄像机之间的距离。另外，因为图像点与图像的纵向中轴之间的距离与图像宽度的比值，等于图像点对应的实际空间点相对于摄像机的方向角与摄像机的视场角的比值，所以，基于此比值相等的关系，可以由上述任意图像点的图像横坐标计算对应的实际空间点相对于摄像机的方向角。基于图像点对应的实际空间点与摄像机之间的距离和方向角可以确定图像点对应的实际空间点的位置。

上述各种方法中，对于摄像机可以转动的情况，可以针对摄像机的不同转动角度范围分别建立转换关系。在实际工作过程中，基于摄像机当前的转动角度所属的转动角度范围，选用相应的转换关系。对于摄像机焦距可调的情况，可以针对摄像机的不同焦距范围分别建立转换关系。在实际工作过程中，基于摄像机当前的焦距所属的焦距范围，选用相应的转换关系。

当会场中布置有多个麦克风阵列时，可以基于发言人的位置，确定目标扩声区域的范围信息，并选择一个或多个目标麦克风阵列进行拾音，相应的处理流程如图10所示，可以包括如下的步骤：

1001，确定目标发言人的位置。

目标发言人是正在发言或将要发言的人。确定目标发言人的位置的方式可以多种多样。

方式一，可以基于声源定位自动设置：基于一个或多个麦克风阵列采集的音频数据，确定目标发言人的位置。

对于多个麦克风阵列的情况，多个麦克风阵列采集目标发言人的音频数据。每个麦克风阵列可以根据采集的音频数据使用SRP(steered-response power，可控波束响应)等声源定位算法输出目标发言人相对于麦克风阵列的角度，根据角度和麦克风阵列的位置计算可以确定目标发言人的位置。还可以将多个麦克风阵列采集的音频数据输入训练完成的机器学习模型，机器学习模型输出目标发言人的位置，目标发言人的位置可以是坐标。

对于单个麦克风阵列的情况，麦克风阵列采集目标发言人的音频数据。麦克风阵列可以根据采集的音频数据使用SRP等声源定位算法输出目标发言人相对于麦克风阵列的角度，根据该角度和麦克风阵列的位置确定目标发言人的位置，目标发言人的位置可以是他所在的一个扇形区域。

方式二，可以由会议相关人员手动设置：可以为每个参会人分配固定的座位，每个座位的位置可以预先测定，这样就可以预先记录每个参会人的位置，这样，在会议过程中，主讲人可以输入目标发言人的姓名或者编号等信息，会议终端则可以查找到目标发言人的位置。或者，也可以由主讲人在会议终端显示的会场图像中进行操作，以确定目标发言人的位置，这种在图像中操作以确定目标发言人位置的方法在后面内容中会进行详细说明。

1002，基于目标发言人的位置，确定目标扩声区域的范围信息。

得到目标发言人位置后，可以在目标发言人位置附近确定区域，作为目标扩声区域并得到目标扩声区域的范围信息。例如，以目标发言人位置为中心、预定长度(例如，1m)为边长，确定矩形区域作为目标扩声区域，则目标扩声区域的范围信息为该矩形区域的范围信息。再例如，以目标发言人的位置为圆心、指定长度为半径，确定圆形区域作为目标扩声区域，则目标扩声区域的范围信息为该圆形区域的范围信息。

当多个目标发言人同时说话时，通过上述方式可以确定多个目标发言人的位置，对于这种情况可以有多种处理方式：

方式一，在多个目标发言人的位置中，选取与上一个采集周期确定的目标发言人的位置相匹配(如距离小于阈值)的位置，基于选取的位置确定目标扩声区域。

这种处理方式的思想是：当某人发言的过程中，如果其他人出声，则判定其为噪声。

方式二，基于多个目标发言人的位置分别确定多个目标扩声区域，对多个目标扩声区域分别进行404或604的处理，得到每个目标扩声区域对应的目标音频数据，采集每个目标音频数据的强度(振幅或能量)，将强度大于阈值的目标音频数据，作为需要输出的音频数据，将强度小于阈值的目标音频数据，作为噪声丢弃。

这种处理方式的思想是：将音量足够大的声音作为会议发言播放，将音量小的声音作为噪声丢弃。

1003，基于目标发言人的位置和多个麦克风阵列的位置，在多个麦克风阵列中选择至少一个目标麦克风阵列。

在多个麦克风阵列中选择目标麦克风阵列，选择标准可以是麦克风阵列与目标发言人之间的距离小于距离阈值。该距离阈值可以由主讲人设置，也可以由后台技术人员设置。该距离阈值可以根据会场中麦克风阵列的分布情况以及麦克风阵列的采集范围来确定，取值可以在2-5米之间，如3米。

在确定目标发言人的位置后，可以基于目标发言人的位置和多个麦克风阵列的位置，得到确定所有麦克风阵列与目标发言人之间的距离。可以将得到的所有距离与距离阈值比较，确定所有距离小于距离阈值的麦克风阵列，作为目标麦克风阵列。或者，还可以在多个麦克风阵列中，选择与目标发言人的距离最小的麦克风阵列，作为目标麦克风阵列。

当确定出的一个目标麦克风阵列时，后续与步骤402-405处理方法相同。当确定出的多个目标麦克风阵列时，后续与步骤602-605处理方法相同。

上述步骤1002和1003在时序上没有必然的先后关系，可以1003在先，也可以1002在先，还可以同时执行。

在步骤1001中，主讲人可以通过界面操作在会场图像中选择目标发言人，以确定目标发言人的位置。该方法可以应用于如图7所示的会议场景，可以在会场中设置一个或多个图像采集设备。例如，可以采用集成在会议终端上的摄像机，或分布在会场内的摄像机如安装在会议室墙上的摄像机，也可以两种摄像机同时使用。相应的处理流程可以如图11所示，可以包括如下的步骤：

1101，显示图像采集设备拍摄的图像。

1102，响应于在图像中的选择操作，确定图像中与选择操作相对应的目标面部图像。

主讲人在确定将要发言或者正在发言的目标发言人之后，可以在会场的图像中对目标发言人的面部图像区域进行点击或者圈选。

对于点击：

会议终端识别到点击操作后，可以确定点击位置，以点击位置为中心确定一个图像区域。在该图像区域内进行面部识别，得到至少一个面部图像。然后在其中确定点击位置所在的面部图像，即为目标面部图像。

或者，如图12所示，会议终端识别图像中的所有面部图像，对所有面部图像分别显示选择框。主讲人可以点击其中的一个选择框，如图12中的虚线框，会议终端响应于该点击操作确定该选择框对应的目标面部图像。

对于圈选：

会议终端识别到圈选操作后，可以确定圈选区域，在圈选区域内进行面部识别。如果能识别到面部图像，则识别到的面部图像即为目标面部图像。如果不能识别到面部图像，则保持中心不变对圈选区域进行扩大。在扩大后的图像区域中进行面部识别，得到至少一个面部图像。然后确定其中与圈选区域存在交叠的面部图像(可以有一个或多个)，即为目标面部图像。

1103，基于目标面部图像在图像中的像素区域，确定目标面部图像对应的人物的实际空间位置，作为目标发言人的位置。

基于目标面部图像在图像中的像素区域的垂直方向长度，确定目标面部图像对应的人物与图像采集设备的距离。基于像素区域在图像中的水平位置范围的中间值，确定该人物相对于图像采集设备的方向角。基于上述距离和方向角，确定该人物的实际空间位置。

对于上述距离的计算：

可以计算目标面部图像的像素区域中像素点的最大纵坐标与最小纵坐标的差值，得到目标面部图像的垂直方向长度。然后，基于式(6)和垂直方向长度，计算目标发言人(即目标面部图像对应的人物)与摄像机的距离。

其中，基准垂直方向长度是实验测定数值，可以将实际垂直方向长度为指定数值的物体放置在与摄像机距离d(如1米)的位置处，使用摄像机对其进行拍摄，在拍摄的图像中确定该物体的垂直方向长度，作为基准垂直方向长度。

对于上述方向角的计算：

可以计算目标面部图像的像素区域中像素点的最大横坐标与最小横坐标的平均值，该平均值可以认为是目标面部图像的中心点的横坐标。进而可以基于该横坐标计算中心点与图像的纵向中轴之间的距离。因为图像点与图像的纵向中轴之间的距离与图像宽度的比值，等于图像点对应的实际空间点相对于摄像机的方向角与摄像机的视场角的比值，所以，基于此比值相等的关系，可以由中心点与图像的纵向中轴之间的距离，计算目标面部图像中心点对应的实际空间点相对于摄像机的方向角，也即目标发言人的面部中心点相对于摄像机的方向角。

在确定上述距离和方向角之后，可以计算目标发言人与摄像机的相对位置，进而，可以基于摄像机在会场坐标系中的位置与该相对位置，计算目标发言人在会场坐标系中的位置。

可选的，上述流程中，在确定目标面部图像之后，可以计算目标面部图像与预先存储的参会人的面部图像的匹配度，如果存在匹配度高于阈值(如95％)的面部图像，则获取其中匹配度最高的面部图像对应的目标参会人，将目标参会人的相关信息(如姓名、职务等)添加到会议图像中，可以添加到目标面部图像附近的位置，还可以加一些注释文字，如“当前发言人”。(数据库中的参会人的面部图像和相关信息，都是经过本人确认同意后进行采集的。)

上述步骤801-803、步骤1001-1002给出了两种确定目标扩声区域的方法。另外，还有很多种其他的确定目标扩声区域的方法。例如，在会议终端上显示有当前会场的视频画面，主讲人可以在会议终端上点选四个点，进而会议终端以四个点对应的实际空间点为顶点确定四边形的目标扩声区域，得到目标扩声区域的范围信息。又例如，在会议终端上显示有当前会场的视频画面，并显示预先划分好的多个区域，主讲人可以在多个区域中点选至少一个区域，进而会议终端可以确定此至少一个区域对应的实际空间区域为目标扩声区域，得到目标扩声区域的范围信息。

对于图5所示的会议场景，本申请实施例还提供了一种处理音频数据的方法，选择与目标发言人距离较近的目标麦克风进行拾音。该方法除了可以应用在图5的会议场景，还可以应用在使用其他类型的麦克风的场景，如只有一个麦克风单元的麦克风。相应的处理流程如图13所示，包括如下步骤：

1301，确定目标发言人的位置。

确定目标发言人位置的处理与步骤1001的处理相同，可以参见步骤1001的相关说明内容，此处不再赘述。

1302，基于目标发言人的位置和多个麦克风的位置，在多个麦克风中选择至少一个目标麦克风。

其中，麦克风可以是麦克风阵列，也可以是只有一个麦克风单元的麦克风。

选择目标麦克风的处理与步骤1003中确定目标麦克风阵列的处理类似，可以参见步骤1003的相关说明内容，此处不再赘述。

1303，屏蔽目标麦克风之外的其他麦克风采集的音频数据，并输出目标麦克风采集的音频数据。

确定目标麦克风后，可以关闭本地会场中目标麦克风之外的其他麦克风，或者也可以停止对其他麦克风的音频数据进行处理和输出。目标麦克风采集到原始音频数据，将采集到的原始音频数据传输给会议终端的处理器210。处理器210可以对原始音频数据进行残留回声抑制、降噪、去混响、陷波、移频、增益调节等处理。然后，将处理后的音频数据传输至扬声器进行播放。另外，处理后的音频数据还可以作为回声抑制的输入数据。

对于多会场的场景，会议终端可以先将处理后的音频数据与远端会场发送过来的音频数据进行混音，再将混音后的音频数据传输至扬声器进行播放。同时，会议终端可以将处理后的音频数据发送至远端会场。

多个目标麦克风阵列的等效中心坐标的获取方法，包括：

方法一，目标麦克风阵列上安装UWB传感器，在会议室的已知位置(如会议终端等效中心位置)也安装有UWB传感器。通过双向飞行时间法(Two way-time of flight，TW-TOF)得到目标麦克风阵列的空间坐标。

在会场中两个位置固定安装UWB传感器，并在每个目标麦克风阵列上各设置一个UWB传感器。通过双向飞行时间法，分别确定每个目标麦克风阵列相对于两个固定UWB传感器的距离。双向飞行时间法的计算过程可以如下：

如图14所示，假设在会议终端中关于其竖直轴线对称的位置安装有两个固定UWB传感器，分别为UWB1和UWB2，两个固定UWB传感器的距离为d，会场中建立有二维坐标系，纵轴是两个固定UWB传感器所在的直线，原点是两个固定UWB传感器的中间点。

UWB3是一个目标麦克风阵列上的UWB传感器。会议终端控制UWB1发送数据包，UWB1在时刻T_a1发送数据包，UWB3接收UWB1发送的数据包后，将接收时刻T_b1发送给会议终端。然后，会议终端向UWB3发送控制消息，以指示UWB3发送数据包，UWB3在时刻T_b2发送数据包，将T_b2发送给会议终端，UWB1在时刻T_a2接收UWB3发送的数据包后。进而，会议终端可以基于式(7)计算电磁波的飞行时间T，飞行时间T乘以光速即为UWB1与UWB3间的距离L₁，作为UWB1与该目标麦克风阵列间的距离。

基于相同方法可以计算得到该目标麦克风阵列与UWB2之间的距离L₂。基于L₁、L₂及d通过余弦定理(式(8))，计算该目标麦克风阵列与一个固定UWB传感器的连线相对于两个固定UWB传感器的连线的夹角α，进而基于L₁、d及α通过式(9)、式(10)，计算目标麦克风阵列的坐标(x，y)。

x＝L₁*sinα………………………………………式(9)

y=L₁*cosα-d/2………………………………式(10)

可以使用同样的方法计算其他目标麦克风阵列的位置。

方法二，在每个目标麦克风阵列上设置超声波发声器，已知其中一个目标麦克风阵列的位置，不同的目标麦克风阵列之间相互发送超声波，基于几何计算，可以得到所有目标麦克风阵列的位置。

会场中建立有二维坐标系，目标麦克风阵列1为坐标系原点。会议终端控制目标麦克风阵列1向外发射超声波，目标麦克风阵列1将发送时刻发送给会议终端。如图15所示，目标麦克风阵列2接收超声波，可以确定声源方向与目标麦克风阵列2实际零度指向的夹角并确定接收时刻，将夹角/>和接收时刻发送给会议终端。会议终端可以基于发送时刻和接收时刻的时间差计算两个目标麦克风阵列之间的第一距离。另外，如图16所示，若假设目标麦克风阵列2零度指向与目标麦克风阵列1相同，则接收到的超声波方向与目标麦克风阵列2假定零度指向的夹角θ₂₁。而θ₂₁与/>相差偏转角/>如式(11)所示。

然后，会议终端控制目标麦克风阵列2向外发射超声波，目标麦克风阵列2将发送时刻发送给会议终端。目标麦克风阵列1接收超声波，可以确定声源方向与目标麦克风阵列1实际零度指向的夹角并确定接收时刻，将夹角/>和接收时刻发送给会议终端。会议终端可以基于发送时刻和接收时刻的时间差计算两个目标麦克风阵列之间的第二距离。如图17所示，由目标麦克风阵列2假定零度指向与目标麦克风阵列1实际零度指向相同，可知θ₂₁与/>存在式(12)所示关系。基于式(11)、式(12)可得到式(13)，由式(13)计算可得偏转角

基于偏转角和两个目标麦克风阵列之间的距离d(基于第一距离与第二距离得到的平均值)，可以得到目标麦克风阵列2中所有麦克风单元与目标麦克风阵列1的相对位置。

本申请实施例中以主讲人进行会议终端操作为例进行方案说明，相应的操作也可以由主持人或操作员进行。

本申请实施例中，基于目标扩声区域的范围信息，在音频数据中，提取声源位于目标扩声区域内的目标音频数据，进行输出播放。这样，参与视频会议的任意一个会场，可以只将该会场中目标扩声区域内声源发出的声音输出播放，而目标扩声区域外存在的声音，将会被屏蔽掉，从而，可以减少会议所受的干扰。而且，在扩声播放的场景下(在会场中采用扬声器对采集的声音扩声播放)，在本方案中，如果会场中的扬声器不在目标扩声区域内，就可以很好的防止回声导致的啸叫。啸叫的产生原理是：如果对麦克风采集的声音进行无差别放大并通过扬声器播放，那么麦克风会采集到扬声器播放的声音，并再次通过扬声器扩声播放，从而形成循环扩声播放，进而产生啸叫。可见，在本方案中，如果会场中的扬声器不在目标扩声区域内，那么即使麦克风采集到扬声器播放的声音，也不会对该声音进行播放，这样就不会形成循环放大播放，从而不会产生啸叫。

基于相同的技术构思，本申请实施例还提供了一种处理音频数据的装置，该装置可以是上述实施例中的会议终端，如图18所示，该装置包括：

确定模块1810，用于确定目标扩声区域的范围信息；具体可以实现上述步骤401、步骤601中的确定功能，以及其他隐含步骤。

获取模块1820，用于获取目标麦克风阵列的各通道的音频数据；具体可以实现上述步骤402、步骤602中的获取功能，以及其他隐含步骤。

提取模块1830，用于在音频数据中，提取声源位于目标扩声区域内的目标音频数据；具体可以实现上述步骤403和步骤404、步骤603和步骤604中的提取功能，以及其他隐含步骤。其中，目标音频数据被用于输出播放。

可选的，提取模块1830，用于：

基于各通道的音频数据，确定音频数据对应的声源方位信息；

将至少一个通道的音频数据、声源方位信息和目标扩声区域的范围信息，输入声音分离模型，得到声源位于目标扩声区域内的目标音频数据。

可选的，当存在多个目标麦克风阵列时，提取模块1830，用于：

对于多个目标麦克风阵列中的每个目标麦克风阵列，基于每个目标麦克风阵列的各通道的音频数据，确定每个目标麦克风阵列对应的声源方位信息；

将多个目标麦克风阵列中的每个目标麦克风阵列的至少一个通道的音频数据、每个目标麦克风阵列对应的声源方位信息、目标扩声区域的范围信息和每个目标麦克风阵列每个的位置参考信息，输入声音分离模型，得到声源位于目标扩声区域内的目标音频数据，其中，位置参考信息用于直接或间接指示对应的目标麦克风阵列中各麦克风单元的位置。

可选的，提取模块1830，用于：

将各通道的音频数据和目标扩声区域的范围信息，输入声音分离模型，得到声源位于目标扩声区域内的目标音频数据。

将多个目标麦克风阵列中的每个目标麦克风阵列的各通道的音频数据、每个目标麦克风阵列对应的位置参考信息和目标扩声区域的范围信息，输入声音分离模型，得到声源位于目标扩声区域内的目标音频数据，其中，位置参考信息用于直接或间接指示对应的目标麦克风阵列中各麦克风单元的位置。

可选的，确定模块1810，用于：

确定目标发言人的位置；

基于目标发言人的位置，确定目标扩声区域的范围信息。

可选的，目标扩声区域为圆形区域，确定模块1810，用于：

根据以目标发言人的位置为圆心、指定长度为半径的圆形区域，确定目标扩声区域的范围信息。

可选的，确定模块1810，用于：

确定目标发言人的位置；

基于目标发言人的位置和多个麦克风阵列的位置，在多个麦克风阵列中选择至少一个目标麦克风阵列。具体可以实现上述步骤1003中的选择功能，以及其他隐含步骤。

可选的，确定模块1810，用于：

基于目标发言人的位置和多个麦克风阵列的位置，在多个麦克风阵列中，选择与目标发言人的距离小于距离阈值的至少一个目标麦克风阵列；或者，

基于目标发言人的位置和多个麦克风阵列的位置，在多个麦克风阵列中，选择与目标发言人的距离最小的目标麦克风阵列。

可选的，确定模块1810，用于：

响应于在图像中的选择操作，确定图像中与选择操作相对应的目标面部图像；

基于目标面部图像在图像中的像素区域，确定目标面部图像对应的人物的实际空间位置，将实际空间位置作为目标发言人的位置。

可选的，确定模块1810，用于：

基于目标面部图像在图像中的像素区域的垂直方向长度，确定目标面部图像对应的人物与图像采集设备的距离；

基于像素区域在图像中的水平位置范围的中间值，确定人物相对于图像采集设备的方向角；

基于距离和方向角，确定人物的实际空间位置。

可选的，确定模块1810，用于：

基于一个或多个麦克风阵列采集的音频数据，确定目标发言人的位置。

可选的，确定模块1810，用于：

响应于选定图像中的像素区域的操作；

确定选定的图像中的像素区域对应的实际空间区域的范围信息，将实际空间区域的范围信息作为目标扩声区域的范围信息。

需要说明的是，上述确定模块1810、获取模块1820和提取模块1830可以由处理器实现，或者由处理器配合存储器、收发器来实现。

基于相同的技术构思，本申请实施例还提供了一种处理音频数据的装置，该装置可以是上述实施例中的会议终端，如图19所示，该装置包括：

确定模块1910，用于确定目标发言人的位置，具体可以实现上述步骤1301中的获取功能，以及其他隐含步骤。

选择模块1920，用于基于目标发言人的位置和多个麦克风的位置，在多个麦克风中选择至少一个目标麦克风，具体可以实现上述步骤1302中的获取功能，以及其他隐含步骤。

输出模块1930，用于屏蔽目标麦克风之外的其他麦克风采集的音频数据，并输出目标麦克风采集的音频数据，具体可以实现上述步骤1303中的获取功能，以及其他隐含步骤。

可选的，确定模块1910，用于：

响应于在图像中的选择操作，确定图像中与选择操作相对应的目标面部图像。

可选的，确定模块1910，用于：

基于目标面部图像在图像中的像素区域的垂直方向长度，确定目标面部图像对应的人物与图像采集设备的距离。

基于像素区域在图像中的水平位置范围的中间值，确定人物相对于图像采集设备的方向角。

基于距离和方向角，确定人物的实际空间位置。

可选的，确定模块1910，用于：

基于一个或多个麦克风采集的音频数据，确定目标发言人的位置。

可选的，选择模块1920，用于：

基于目标发言人的位置和多个麦克风的位置，在多个麦克风中，选择与目标发言人的距离小于距离阈值的至少一个目标麦克风；或者，基于目标发言人的位置和多个麦克风的位置，在多个麦克风中，选择与目标发言人的距离最小的目标麦克风。

需要说明的是，上述确定模块1910、选择模块1920和输出模块1930可以由处理器实现，或者由处理器配合存储器、收发器来实现。

本申请实施例中，基于目标扩声区域的范围信息，在音频数据中，提取声源位于目标扩声区域内的目标音频数据，进行输出播放。这样，参与视频会议的任意一个会场，可以只将该会场中目标扩声区域内声源发出的声音输出播放，而目标扩声区域外存在的声音，将会被屏蔽掉，从而，可以减少会议所受的干扰。而且，在扩声播放的场景下(在会场中采用扬声器对采集的声音扩声播放)，在本方案中，如果会场中的扬声器不在目标扩声区域内，就可以很好的防止回声导致的啸叫。

需要说明的是：上述实施例提供的处理音频数据的装置在处理音频数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的处理音频数据的装置与处理音频数据的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令，在设备上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴光缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是设备能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(如软盘、硬盘和磁带等)，也可以是光介质(如数字视盘(digital video disk，DVD)等)，或者半导体介质(如固态硬盘等)。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请一个实施例，并不用以限制本申请，凡在本申请的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号(包括但不限于用户终端与其他设备之间传输的信号等)，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的参会人的面部图像和相关信息都是在充分授权的情况下获取的。

Claims

1.一种处理音频数据的方法，其特征在于，所述方法包括：

确定目标扩声区域的范围信息；

获取目标麦克风阵列的各通道的音频数据；

基于所述目标扩声区域的范围信息，在所述音频数据中，提取声源位于所述目标扩声区域内的目标音频数据，其中，所述目标音频数据被用于输出播放。

2.根据权利要求1所述的方法，其特征在于，基于所述目标扩声区域的范围信息，在所述音频数据中，提取声源位于所述目标扩声区域内的目标音频数据，包括：

基于所述各通道的音频数据，确定所述音频数据对应的声源方位信息；

将至少一个通道的音频数据、所述声源方位信息和所述目标扩声区域的范围信息，输入声音分离模型，得到声源位于所述目标扩声区域内的目标音频数据。

3.根据权利要求1所述的方法，其特征在于，基于所述目标扩声区域的范围信息，在所述音频数据中，提取声源位于所述目标扩声区域内的目标音频数据，包括：

将所述各通道的音频数据和所述目标扩声区域的范围信息，输入声音分离模型，得到声源位于所述目标扩声区域内的目标音频数据。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述确定目标扩声区域的范围信息，包括：

确定目标发言人的位置；

基于所述目标发言人的位置，确定所述目标扩声区域的范围信息。

5.根据权利要求4所述的方法，其特征在于，所述目标扩声区域为圆形区域，基于所述目标发言人的位置，确定所述目标扩声区域的范围信息，包括：

根据以所述目标发言人的位置为圆心、指定长度为半径的圆形区域，确定所述目标扩声区域的范围信息。

6.根据权利要求1-3任一项所述的方法，其特征在于，所述获取目标麦克风阵列的各通道的音频数据之前，还包括：

确定目标发言人的位置；

基于所述目标发言人的位置和多个麦克风阵列的位置，在所述多个麦克风阵列中选择至少一个所述目标麦克风阵列。

7.根据权利要求6所述的方法，其特征在于，基于所述目标发言人的位置和多个麦克风阵列的位置，在所述多个麦克风阵列中选择至少一个目标麦克风阵列，包括：

基于所述目标发言人的位置和所述多个麦克风阵列的位置，在所述多个麦克风阵列中，选择与所述目标发言人的距离小于距离阈值的至少一个目标麦克风阵列；或者，

基于所述目标发言人的位置和所述多个麦克风阵列的位置，在所述多个麦克风阵列中，选择与所述目标发言人的距离最小的目标麦克风阵列。

8.根据权利要求4-7任一项所述的方法，其特征在于，所述确定目标发言人的位置，包括：

响应于在图像中的选择操作，确定所述图像中与所述选择操作相对应的目标面部图像；

基于所述目标面部图像在所述图像中的像素区域，确定所述目标面部图像对应的人物的实际空间位置，将所述实际空间位置作为所述目标发言人的位置。

9.根据权利要求4-7任一项所述的方法，其特征在于，所述确定目标发言人的位置，包括：

基于一个或多个麦克风阵列采集的音频数据，确定所述目标发言人的位置。

10.根据权利要求1-3任一项所述的方法，其特征在于，所述确定目标扩声区域的范围信息，包括：

响应于选定图像中的像素区域的操作；

确定所述选定的图像中的像素区域对应的实际空间区域的范围信息，将所述实际空间区域的范围信息作为所述目标扩声区域的范围信息。

11.一种处理音频数据的方法，其特征在于，所述方法包括：

确定目标发言人的位置；

基于所述目标发言人的位置和多个麦克风的位置，在所述多个麦克风中选择至少一个目标麦克风；

屏蔽所述目标麦克风之外的其他麦克风采集的音频数据，并输出所述目标麦克风采集的音频数据。

12.根据权利要求11所述的方法，其特征在于，所述确定目标发言人的位置，包括：

13.根据权利要求11所述的方法，其特征在于，所述确定目标发言人的位置，包括：

基于一个或多个麦克风采集的音频数据，确定所述目标发言人的位置。

14.根据权利要求11-13任一项所述的方法，其特征在于，基于所述目标发言人的位置和多个麦克风的位置，在所述多个麦克风中选择至少一个目标麦克风，包括：

基于所述目标发言人的位置和多个麦克风的位置，在多个麦克风中，选择与所述目标发言人的距离小于距离阈值的至少一个目标麦克风；或者，

基于所述目标发言人的位置和多个麦克风的位置，在多个麦克风中，选择与所述目标发言人的距离最小的目标麦克风。

15.一种处理音频数据的装置，其特征在于，所述装置包括：

确定模块，用于确定目标扩声区域的范围信息；

获取模块，用于获取目标麦克风阵列的各通道的音频数据；

提取模块，用于基于所述目标扩声区域的范围信息，在所述音频数据中，提取声源位于所述目标扩声区域内的目标音频数据，其中，所述目标音频数据被用于输出播放。

16.根据权利要求15所述的装置，其特征在于，所述提取模块，用于：

将至少一个通道的音频数据、所述声源方位信息和目标扩声区域的范围信息，输入声音分离模型，得到声源位于所述目标扩声区域内的目标音频数据。

17.根据权利要求15所述的装置，其特征在于，所述提取模块，用于：

将所述各通道的音频数据和目标扩声区域的范围信息，输入声音分离模型，得到声源位于所述目标扩声区域内的目标音频数据。

18.根据权利要求15-17任一项所述的装置，其特征在于，所述确定模块，用于：

确定目标发言人的位置；

19.根据权利要求18所述的装置，其特征在于，所述目标扩声区域为圆形区域，所述确定模块，用于：

20.根据权利要求15-17任一项所述的装置，其特征在于，所述确定模块，还用于：

确定目标发言人的位置；

21.根据权利要求20所述的装置，其特征在于，所述确定模块，用于：

22.根据权利要求18-21任一项所述的装置，其特征在于，所述确定模块，用于：

23.根据权利要求18-21任一项所述的装置，其特征在于，所述确定模块，用于：

24.根据权利要求15-17任一项所述的装置，其特征在于，所述确定模块，用于：

响应于选定图像中的像素区域的操作；

25.一种处理音频数据的装置，其特征在于，所述装置包括：

确定模块，用于确定目标发言人的位置；

选择模块，用于基于所述目标发言人的位置和多个麦克风的位置，在所述多个麦克风中选择至少一个目标麦克风；

输出模块，用于屏蔽所述目标麦克风之外的其他麦克风采集的音频数据，并输出所述目标麦克风采集的音频数据。

26.根据权利要求25所述的装置，其特征在于，所述确定模块，用于：

27.根据权利要求25所述的装置，其特征在于，所述确定模块，用于：

28.根据权利要求25-27任一项所述的装置，其特征在于，所述选择模块，用于：

29.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器用于存储计算机指令；

所述处理器执行所述存储器存储的计算机指令，以使所述计算机设备执行上述权利要求1至14中任一项所述的方法。

30.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序代码，响应于所述计算机程序代码被计算机设备执行，所述计算机设备执行上述权利要求1至14中任一项所述的方法。

31.一种处理音频数据的系统，其特征在于，所述系统包括计算机设备、目标麦克风阵列、音频输出设备和图像采集设备；

所述计算机设备用于执行如权利要求1至14任一项所述的方法；

所述目标麦克风阵列用于采集音频数据；

所述音频输出设备用于对所述目标音频数据进行输出播放；

所述图像采集设备用于采集图像。