CN115410593A

CN115410593A - 音频信道的选择方法、装置、设备及存储介质

Info

Publication number: CN115410593A
Application number: CN202210917657.9A
Authority: CN
Inventors: 熊飞飞; 冯津伟
Original assignee: Dingtalk China Information Technology Co Ltd
Current assignee: Dingtalk China Information Technology Co Ltd
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-11-29

Abstract

本申请实施例提供了音频信道的选择方法、装置、设备及存储介质，涉及级联扩展麦，所述方法包括：对所述级联扩展麦的音频信号进行语音增强操作，得到语音增强后的音频信号；获取针对所述语音增强后的音频信号的能量平滑信息；根据所述能量平滑信息，确定用于音频输出的目标音频信道。通过基于语音增强后的能量平滑信息确定最佳的音频信道输出，可在融合当前音频算法以及语音增强方案的基础上，增强级联扩展麦的最终效果，实现对最佳音频信道的选择。

Description

音频信道的选择方法、装置、设备及存储介质

技术领域

本申请涉及通信技术领域，特别是涉及一种音频信道的选择方法、一种音频信道的选择装置、相应的一种电子设备以及相应的一种计算机存储介质。

背景技术

随着音视频通信系统的普及，广泛应用在音视频会议，而随着音视频会议的广泛应用，为了覆盖能够容纳更多参会者的大会议室，不同会议终端的形态也越来越多，其中一种形态包括级联模式，具体可通过级联方式连接分布在会议室不同位置的拾音设备，以基于分布式的空间覆盖进一步减少拾音距离，达到覆盖整个会议室的效果。

通过级联模式可解决大会议室常见的远场拾音不佳的问题，但在级联模式下最终采用的输出信道可能并不是最佳的音频信道。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分的解决上述问题的一种音频信道的选择方法、一种音频信道的选择装置、相应的一种电子设备以及相应的一种计算机存储介质。

本申请实施例公开了一种音频信道的选择方法，涉及级联扩展麦，所述方法包括：

对所述级联扩展麦的音频信号进行语音增强操作，得到语音增强后的音频信号；

获取针对所述语音增强后的音频信号的能量平滑信息；

根据所述能量平滑信息，确定用于音频输出的目标音频信道。

可选地，所述级联扩展麦包括至少两个扩展麦；所述对所述级联扩展麦的音频信号进行语音增强操作，包括：

获取级联扩展麦中的各个扩展麦的音频信号，对各个扩展麦的音频信号分别进行语音增强操作。

可选地，所述对所述级联扩展麦的音频信号进行语音增强操作，得到语音增强后的音频信号，包括：

对所述级联扩展麦的音频信号进行时域转换，得到频域信息；

基于所述频域信息进行估计得到干扰声能量；

采用所述干扰声能量去除所述音频信号中的干扰部分，得到语音增强后的音频信号。

可选地，所述基于所述频域信息进行估计得到干扰声能量，还包括：

采用所述频域信息计算针对所述级联扩展麦的语音信号的频域能量；

所述基于所述频域信息进行估计得到干扰声能量，包括：

获取用于语音增强的语音模型，采用所述语音模型基于所述频域信息估计得到干扰部分占音频信号的比例信息；

采用所述比例信息从所述频域能量中估计得到干扰声能量。

可选地，所述采用所述干扰声能量去除所述音频信号中的干扰部分，得到语音增强后的音频信号，包括：

从所述频域能量中减去干扰声能量，得到音频能量；

确定所述音频能量相应的信号为语音增强后的音频信号。

可选地，所述获取针对所述语音增强后的音频信号的能量平滑信息，包括：

获取所述语音增强后的音频信号的音频能量，并获取所述音频能量中预设频带范围的目标音频能量；

对所述目标音频能量进行能量平滑操作，得到针对音频能量的能量平滑谱。

可选地，所述能量平滑信息包括针对音频能量的能量平滑谱；所述根据所述能量平滑信息，确定用于音频输出的目标音频信道，包括：

从所述能量平滑谱中，获取不同音频信道在预设频带范围中不同频带的音频能量；其中，所述级联扩展麦中不同的扩展麦具有相应的音频信道；

对比不同音频信道在不同频带的音频能量，确定多个音频信道中用于音频输出的目标音频信道。

可选地，所述对比不同音频信道在不同频带的音频能量，确定多个音频信道中用于音频输出的目标音频信道，包括：

获取在各个频带中不同音频信道的音频能量；

基于所述不同音频信道在各个频带的音频能量，对所述音频信道进行评分；

基于评分结果从多个音频信道中确定目标音频信道。

可选地，基于所述不同音频信道在各个频带的音频能量，对所述音频信道进行评分，包括：

基于不同音频信道在各个频带的音频能量，对各个音频信道进行分段评分；

所述基于评分结果从多个音频信道中确定目标音频信道，包括：

累积各个音频信道在不同频带的分数值，从多个分数值中确定分数值超过预设分数阈值的音频通道为目标音频通道。

本申请实施例还公开了一种音频信道的选择装置，涉及级联扩展麦，所述装置包括：

语音增强模块，用于对所述级联扩展麦的音频信号进行语音增强操作，得到语音增强后的音频信号；

能量平滑信息获取模块，用于获取针对所述语音增强后的音频信号的能量平滑信息；

目标音频信道确定模块，用于根据所述能量平滑信息，确定用于音频输出的目标音频信道。

可选地，所述级联扩展麦包括至少两个扩展麦；所述语音增强模块包括：

语音增强子模块，用于获取级联扩展麦中的各个扩展麦的音频信号，对各个扩展麦的音频信号分别进行语音增强操作。

可选地，所述语音增强子模块包括：

频域信息获取单元，用于对所述级联扩展麦的音频信号进行时域转换，得到频域信息；

干扰声能量生成单元，用于基于所述频域信息进行估计得到干扰声能量；

音频信号获取单元，用于采用所述干扰声能量去除所述音频信号中的干扰部分，得到语音增强后的音频信号。

可选地，所述语音增强子模块还包括：

频域能量计算单元，用于采用所述频域信息计算针对所述级联扩展麦的语音信号的频域能量；

干扰声能量生成单元可以包括如下子单元：

语音模型获取子单元，用于获取用于语音增强的语音模型，采用所述语音模型基于所述频域信息估计得到干扰部分占音频信号的比例信息；

干扰声能量生成子单元，用于采用所述比例信息从所述频域能量中估计得到干扰声能量。

可选地，所述能量平滑信息获取模块包括：

目标音频能量获取子模块，用于获取所述语音增强后的音频信号的音频能量，并获取所述音频能量中预设频带范围的目标音频能量；

能量平滑操作子模块，用于对所述目标音频能量进行能量平滑操作，得到针对音频能量的能量平滑谱。

可选地，所述能量平滑信息包括针对音频能量的能量平滑谱；所述目标音频信道确定模块包括：

音频能量获取子模块，用于从所述能量平滑谱中，获取不同音频信道在预设频带范围中不同频带的音频能量；其中，所述级联扩展麦中不同的扩展麦具有相应的音频信道；

音频能量对比子模块，用于对比不同音频信道在不同频带的音频能量，确定多个音频信道中用于音频输出的目标音频信道。

可选地，所述音频能量对比子模块包括：

音频能量获取单元，用于获取在各个频带中不同音频信道的音频能量；

音频信道评分单元，用于基于所述不同音频信道在各个频带的音频能量，对所述音频信道进行评分；

目标音频信道确定单元，用于基于评分结果从多个音频信道中确定目标音频信道。

可选地，所述音频信道评分单元包括：

分段评分子单元，用于基于不同音频信道在各个频带的音频能量，对各个音频信道进行分段评分；

目标音频信道确定单元可以包括如下子单元：

目标音频信道确定子单元，用于累积各个音频信道在不同频带的分数值，从多个分数值中确定分数值超过预设分数阈值的音频通道为目标音频通道。

本申请实施例还公开了一种电子设备，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现任一项所述音频信道的选择方法的步骤。

本申请实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现任一项所述音频信道的选择方法的步骤。

本申请实施例包括以下优点：

在本申请实施例中，在采用原有音频算法的基础上，对级联扩展麦的音频信号进行语音增强，即进行额外的语音增强操作，以尽可能提取音频信号中清晰的语音部分，然后获取针对语音增强后的音频信号的能量平滑信息，基于简洁的能量平滑信息判别多个音频信道中最佳的目标音频信道，以采用所确定的目标音频信道进行音频输出，通过基于语音增强后的能量平滑信息确定最佳的音频信道输出，可在融合当前音频算法以及语音增强方案的基础上，增强级联扩展麦的最终效果，实现对最佳音频信道的选择。

附图说明

图1是本申请的一种音频信道的选择方法实施例的步骤流程图；

图2是本申请的另一种音频信道的选择方法实施例的步骤流程图；

图3是本申请实施例提供的音频信道选择的实施过程示意图；

图4是本申请实施例提供的音频信道选择的应用场景图；

图5是本申请的一种音频信道的选择装置实施例的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

为便于本领域技术人员理解本申请，下面对本申请下述各实施例中涉及的术语或名词做出解释：

级联模式：定义为两个或者两个以上的拾音设备通过一定方式相互连接。

扩展麦：从音视频设备终端主机延伸出去的拾音设备。

拾音设备：指的是负责用于将声音收集的设备，可以包括麦克风等设备。

智能语音增强：通常指对单通道的语音增强操作，包括去除噪声、去除混响效果等操作，便于得到更清晰的语音部分。

去噪：又称噪音消除，拾音设备接收到的含有噪音的音频，通过算法模块来去除噪音，尽量保留原始语音信号的保真度。

去混响：拾音设备接收到的含有混响的音频，通过算法模块来去除混响，来达到原始音频不含有混响的效果。

时频转换：用以确定时变信号局部区域的频域信息。

3A算法：在本申请实施例中指的是3A音频处理技术，其是声学回声消除(AEC，Acoustic Echo Cancellation)、背景噪声抑制(ANS，Automatic Noise Suppression)、自动增益控制(AGC，Automatic Gain Control)三种音频算法的合称。其在音频数据的处理过程中，在音频数据采集完成之后需要进行预处理，3A算法是预处理的关键技术。

由于麦克风的灵敏度有限，以及远距离拾音将会受到噪音与混响干扰的原因，空间大的会议室通常存在远场拾音不佳的问题，在相关技术中不仅可以从软件层面对远场拾音的问题进行解决，硬件层面上也可提出用以解决远场拾音的产品级解决方式，例如通过级联扩展麦的方式提高大会议室的拾音质量。其中，级联扩展麦的方式主要可表现为按照级联方式连接分布在会议室不同位置的拾音设备，以达到覆盖整个会议室的效果，而此类分散拾音设备可称为扩展麦，级联扩展麦的优势在于可通过延伸出来的拾音能力有效地覆盖大/超大会议室，基于对空间的分布式覆盖，进一步拉近拾音距离，且由于级联扩展麦的安装简易性以及便携性，能够在成本较低的情况下解决大会议室常见的远场拾音不佳的问题。

通过级联模式可解决大会议室常见的远场拾音不佳的问题，但在级联模式下最终采用的输出信道可能并不是最佳的音频信道，即大会议室所采用的级联扩展麦的方式进一步可能造成如何选择最佳的音频信道作为最终输出信道的问题。而在相关技术中，通常是采用级联扩展麦中音频信号的能量进行判断，但由于扩展麦所采集的音频信号可能受到噪声和混响的干扰，其单纯采用能量的判断方式并不能实现对最佳音频信道的选择。

本申请实施例的核心思想之一在于所提出的音频信道自动选择方案，主要可基于语音增强后的能量平滑信息确定最佳的音频信道输出，其可对级联扩展麦的音频信号进行语音增强操作，通过采用单通道智能降噪和去混响方案对级联扩展麦中的每个扩展麦实现语音增强，以尽可能提取出所采集的音频信号中清晰的语音部分，然后再用基于简洁的能量平滑信息从多个音频信道中判别最佳的目标音频信道，以采用所确定的目标音频信道进行音频输出，即基于所提取的清晰语音部分的能量对最佳的拾音信道进行确定，避免最终确定的音频信道受到噪声和混响的过多干扰，使得所确定的目标音频信道较为准确；且基于语音增强后采用能量进行判断的方式，可在采用原有音频算法的基础上，对级联扩展麦的音频信号进行额外的语音增强操作，即其可沿用当前的音频算法，模块计算量小，并在融合语音增强方案的情况下增强级联扩展麦的最终效果，在现有算法框架下能达到快速融合以及最终音频信道选择进度高的目的，提高级联扩展麦的抗干扰鲁棒性，实现级联扩展麦对最终用于输出音频的目标音频信道，即最佳的音频信道的选择。

参照图1，示出了本申请的一种音频信道的选择方法实施例的步骤流程图，涉及级联扩展麦，具体可以包括如下步骤：

步骤101，对级联扩展麦的音频信号进行语音增强操作，得到语音增强后的音频信号；

在大空间下的远场拾音，由于麦克风灵敏度有限，以及远距离拾音必然受到噪音和混响干扰的原因，经常导致大空间下的拾音质量不佳，级联扩展麦能够基于对空间的分布式覆盖以拉近拾音距离以解决远场拾音的问题，但即便对拾音距离的减小，级联扩展麦在拾音过程中依然会受到噪音和混响的干扰，进而使得级联扩展麦在选择最终用于输出音频的目标音频信道时，其对于目标音频信道的选择同样将受到噪音和混响的干扰。

为了避免级联扩展麦在选择最终用于输出音频的目标音频信道，即最佳音频信道时受到过多的噪音和混响的干扰，此时可在确定目标音频信道之前，对级联扩展麦的音频信号进行语音增强操作，以尽量提取所采集的音频信号中清晰的语音部分，即尽可能减小音频信号中的噪音和混响干扰。

其中，级联扩展麦作为拾音设备，级联扩展麦的音频信号可以为基于级联扩展麦所拾音或者所采集的音频信号，此音频信号由从音视频设备终端主机延伸出去的拾音设备进行采集，可以包括带有语音、音乐和音效的有规律的声波的频率、幅度变化的电信号，例如语音信号等。

对音频信号进行的语音增强操作可以表现为当语音信号被各种各样的噪声干扰的情况下，从噪声背景中提取出有效的语音信号，对噪声和混响干扰进行抑制与降低，即从含躁音频中尽可能提取纯净的原始语音部分。那么所进行的语音增强操作实质上为降噪以及去混响操作，进行语音增强前的音频信号可以包括语音部分的信号，以及包含噪音或者其他干扰部分的信号，而所得到的语音增强后的音频信号，通常包含所提出的清新的语音部分的信号，即为在对音频信号进行降噪以及去混响操作后剩余的音频信号。

示例性地，假设在实时语音的通信场景，例如会议室的场景下，所进行的降噪操作可表现为去除环境和会议室常见的噪音，例如空调运行所产生的声声、键盘与鼠标敲击声或者所产生的其他声音、敲桌声、水杯、桌椅发出的声响等；所进行的去混响操作可表现为去除会议室密闭空间造成的混响效应，例如空间距离感，噪音和混响这两个因素都将使得语音的质量急剧下降，基于降噪与去混响的操作消除这两个效应，能够使得音频语音更清晰，提高语音质量。

在实际应用中，级联扩展麦指的是按照一定方式相互连接的，两个或者两个以上的从音视频设备终端主机延伸出去的拾音设备，即级联扩展麦可包含至少两个扩展麦，而各个扩展麦具有相应不同的拾音通道，则拾音通道相应地存在用于音频输出的音频信道，为了便于后续从多个扩展麦的音频信道中进行信道选择，在进行音频信号的语音增强操作时，可获取级联扩展麦中各个扩展麦的音频信号，对各个扩展麦的音频信号分别进行语音增强操作，即对各个扩展麦所采集的音频信号进行降噪与去混响的操作，保证各个扩展麦的音频信号包含纯净的原始语音部分。

步骤102，获取针对语音增强后的音频信号的能量平滑信息；

对最终用于音频输出的目标音频信道的选择，可基于不同扩展麦中语音增强后的音频信号的能量进行判定实现。此时可获取针对语音增强后的音频信号的能量平滑信息，以便后续基于简洁的能量平滑信息从多个音频信道中判别最佳的目标音频信道。

在实际应用中，所获取的音频信号的能量平滑信息可以是针对音频信号的能量平滑谱。其中，音频信号的能量以能量谱的形式体现，能量谱可基于对音频信号的幅度处理得到，其主要可对音频信号的幅度谱进行平方操作得到能量谱。

在具体实现中，针对音频信号的能量平滑谱，可对音频信号的能量谱进行能量平滑操作得到，那么在对能量谱中音频信号的幅度进行平滑操作后的能量谱可称为能量平滑谱。平滑操作也可以称之为滤波或者合在一起称为平滑滤波，即可对能量谱中音频信号的幅度进行低频增强的空间域滤波，以在对音频信号进行语音增强后再进一步过滤噪音，进一步降低噪音和混响对目标音频信道的选择。

步骤103，根据能量平滑信息，确定用于音频输出的目标音频信道。

在对级联扩展麦的音频信号进行语音增强操作后，可基于简洁的能量平滑信息从多个音频信道中判别最佳的目标音频信道，以便采用所确定的目标音频信道进行音频输出，即可基于所提取的清晰语音部分的能量对最佳的拾音信道进行确定，避免最终确定的音频信道受到噪声和混响的过多干扰，使得所确定的目标音频信道较为准确。

其中，在级联扩展麦中包含至少两个扩展麦，各个扩展麦具有相应不同的拾音通道，那么拾音通道相应地存在用于音频输出的音频信道，即每个扩展麦具有其相应的音频信道。在实际应用中，当作为拾音设备的扩展麦对空间内拾音对象的音频进行拾取后，需要将所拾取的音频信号输出至音视频设备终端主机的另一端，此时需要确定用于将音频输出至另一端时所采用的音频信道，即具体确定级联扩展麦中某个扩展麦的音频信道作为用于音频输出的目标音频信道，其具体可表现为对某个扩展麦的音频信道的选择，以便在多级联扩展麦对音频进行拾取后，采用所确定的某个扩展麦的音频信道进行音频传输。

需要说明的是，在采用所确定的某个扩展麦的音频信道进行音频输出时，其所输出的音频可以为此扩展麦在通过拾音通道采集的音频信号，且通常此扩展麦可以为离拾音对象的拾音距离相较短的扩展麦，在另外的情况下此扩展麦的确定可能还扩展麦的级联方式有关，例如组合级联时可能并不选择离拾音对象的拾音距离短的扩展麦，对此，本申请实施例不加以限制。

参照图2，示出了本申请的另一种音频信道的选择方法实施例的步骤流程图，涉及级联扩展麦，具体可以包括如下步骤：

步骤201，提取各个扩展麦中的音频能量；

目前实时通信设备里面的音频算法(例如经典的3A算法)是在频域中进行实现的，音频能量基本上可以指的是频域能量，此能量可用于反映扩展麦各个通道拾取的音频能量，在后续确定最终用于输出音频的目标音频信道，即对某个扩展麦的音频信道的选择时，可依据级联扩展麦中各个扩展麦的音频能量进行确定。

各个扩展麦的音频能量为针对各扩展麦中进行语音增强后的音频信号的能量，即为对音频信号进行降噪以及去混响处理后的音频信号的能量，可在采用原有音频算法的基础上融合语音增强方案，模块计算量小，在现有算法框架下达到快速融合的目的，提高级联扩展麦的抗干扰鲁棒性。此时所获取的音频能量并不包含干扰部分的能量，以避免级联扩展麦在选择最终用于输出音频的目标音频信道，即最佳音频信道时受到过多的噪音和混响的干扰。

在本申请的一种实施例中，首先需要获取级联扩展麦中的各个扩展麦的音频信号，对各个扩展麦的音频信号分别进行语音增强操作，得到语音增强后的音频信号，以尽量提取所采集的音频信号中清晰的语音部分，即尽可能减小音频信号中的噪音和混响干扰，并确定各个扩展麦中的音频能量，其中，音频能量相应的信号即可为语音增强后的音频信号。

在实际应用中，如图3所示，可对级联扩展麦的音频信号进行时域转换，得到频域信息，其中时域转换主要是用于确定时变信号局部区域的频域信息，频域信息主要是用于表示语音信号中语音部分与其他噪音或者干扰部分的信号分布以及信号的频率信息等，然后可基于频域信息进行估计得到干扰声能量，以便采用干扰声能量去除音频信号中的干扰部分，得到语音增强后的音频信号。

如图3所示，除了基于频域信息进行估计得到干扰声能量以外，还可采用频域信息计算针对级联扩展麦的音频信号的频域能量，其中由于频域信息可用于表示音频信号中语音部分与其他噪音或者干扰部分的信号分布以及信号的频率信息等，那么所计算得到的频域能量可以包括音频信号中语音部分的能量以及干扰声能量等。

在实际应用中，为了获取需要减去的干扰声能量，基于频域信息估计干扰声能量的过程，具体可基于智能语音增强模块实现。智能语音增强模块可表现为用于语音增强的语音模型，此语音模型为通过深度学习/神经网络实现的单通道语音增强模型。此时可获取用于语音增强的语音模型，所获取的语音模型可基于大量数据进行训练后得到的神经网络模型，所用于训练的大量数据可以为针对频域信息的样本数据，此样本数据中可包含在某个频域信息中语音部分的信息以及干扰部分的信息，那么此时可确定干扰部分的信息所占频域信息的比例。

在训练用于语音增强的语音模型时，可将频域信息的样本数据作为模型的输入，将干扰部分的信息所占频域信息的比例作为输出进行训练；在对用于语音增强的语音模型进行使用时，可采用语音模型基于频域信息估计得到干扰部分占音频信号的比例信息，即可将用于估计干扰声能量的频域信息输入至语音模型，语音模型可准确估计出干扰部分的比例信息，例如现场的噪音和混响在拾取到的音频信号中所占的比例(如maskratio比值掩蔽)，以便采用所得到的比例信息从频域能量中估计出语音部分的音频能量，以及干扰部分(包含噪音和混响)的干扰声能量。

由于音频能量相应的信号即可为语音增强后的音频信号，此时可提取音频信号中语音部分的能量，即确定各个扩展麦中的音频能量。那么采用语音模型基于频域信息估计得到干扰声能量后，可从频域能量中减去干扰声能量得到音频能量，并确定音频能量相应的信号为语音增强后的音频信号。

步骤202，对各个扩展麦中预设频带范围的目标音频能量进行能量平滑操作，得到针对级联扩展麦的能量平滑信息；

在得到级联扩展麦中各个扩展麦中的音频能量后，可对各个扩展麦中的音频能量，即语音增强后的音频信号的能量进行判定，以对最终用于音频输出的目标音频信道的选择。此时可获取音频能量的能量平滑信息，以便后续基于简洁的能量平滑信息从多个音频信道中判别最佳的目标音频信道。

在实际应用中，所获取的音频信号的能量平滑信息可以是针对音频信号的能量平滑谱。而音频能量可以能量谱的形式体现，针对音频信号的能量平滑谱，可对音频信号的能量谱进行能量平滑操作得到，那么在对能量谱中音频信号的幅度进行平滑操作后的能量谱可称为能量平滑谱。平滑操作也可以称之为滤波或者合在一起称为平滑滤波，即可对能量谱中音频信号的幅度进行低频增强的空间域滤波，以在对音频信号进行语音增强后再进一步过滤噪音，进一步降低噪音和混响对目标音频信道的选择。

在对音频能量进行能量平滑操作的过程中，并不是对音频能量的所有频带都进行平滑操作，由于整个算法框架在频域中进行，各个频带间相互独立，有些频带可能是干扰声占主导，例如高频频带，如图3所示，其主要是对各个扩展麦中的特定频带进行能量平滑，即对预设频带范围的目标音频能量进行能量平滑操作。

具体的，可获取语音增强后的音频信号的音频能量，并获取音频能量中预设频带范围的目标音频能量，此预设频带范围可以表现为语音能量集中的频带，例如500～3500Hz，然后可对目标音频能量进行能量平滑操作，得到针对音频能量的能量平滑谱，此时得到的能量平滑谱为音频能量集中的频带，以更为集中地对焦于音频信号的部分，从而进一步降低噪音和混响对目标音频信道的选择。

步骤203，采用级联扩展麦的能量平滑信息，从多个音频信道中确定目标音频信道。

其中，各个扩展麦具有相应不同的拾音通道，则拾音通道相应地存在用于音频输出的音频信道，即每个扩展麦具有其相应的音频信道。且每个扩展带可拾取不同频带的音频信号，而不同信道在不同频带的音频能量不同，即信道能量不同。

在确定最终用于输出音频的目标音频信道时，可从能量平滑谱中获取不同音频信道在预设频带范围中不同频带的音频能量，然后通过对比不同音频信道在不同频带的音频能量，即信道能量，确定多个音频信道中用于音频输出的目标音频信道。对信道能量的对比，具体可表现为基于不同音频信道在各个频带的音频能量，对音频信道进行评分，并基于评分结果从多个音频信道中确定目标音频信道。

对不同音频信道在各个频带的音频能量的评分，可基于不同音频信道在各个频带的音频能量，对各个音频信道进行分段评分实现，而对目标音频信道的确定，可通过累积各个音频信道在不同频带的分数值，从多个分数值中确定分数值超过预设分数阈值或者最高的音频通道为目标音频通道实现。

示例性地，如图3所示，在对音频信道进行评分的过程中，可在各个频带中对比不同音频信道的音频能量，对相同频带中音频能量最高值的音频信道进行投票或者加分，即对于任一频带而言，可将音频能量最高值的音频信道作为此频带下的最佳信道，进行投票或者加分，然后可累加各个音频信道在所有频带的投票或者分数，将投票数或者分数大于预设分数阈值或者票数最高的音频信道为最佳信道，即最终用于输出音频的目标音频信道。需要说明的是，预设分数阈值可按照实际需要进行设置，对此，本申请实施例不加以限制。

其中，在级联扩展麦中包含至少两个扩展麦，各个扩展麦具有相应不同的拾音通道，那么拾音通道相应地存在用于音频输出的音频信道，即每个扩展麦具有其相应的音频信道。在实际应用中，当作为拾音设备的扩展麦对空间内拾音对象的音频进行拾取后，需要将所拾取的音频信号输出至音视频设备终端主机的另一端，此时需要确定用于将音频输出至另一端时所采用的音频信道，即具体确定级联扩展麦中某个扩展麦的音频信道作为用于音频输出的目标音频信道，其具体可表现为对某个扩展麦的音频信道的选择，以便在多级联扩展麦对音频进行拾取后采用所确定的某个扩展麦的音频信道进行播放。

示例性地，在采用所确定的某个扩展麦的音频信道进行音频输出时，其所输出的音频可以为此扩展麦在通过拾音通道采集的音频信号，且通常此扩展麦可以为离拾音对象的拾音距离相较短的扩展麦，在另外的情况下此扩展麦的确定可能还扩展麦的级联方式有关，例如组合级联时可能并不选择离拾音对象的拾音距离短的扩展麦，对此，本申请实施例不加以限制。

参照图4，示出了本申请实施例提供的音频信道选择的应用场景图，可应用在实时语音的通信场景，例如会议室的应用场景，在此会议室的应用场景中涉及实时通信设备，此实时通信设备可为通信一体机设备，包含主机设备以及级联方式的扩展麦，级联扩展麦可包含至少两个扩展麦，通常可为2-5个，具体视实际情况而定。所采用的扩展麦可以为麦克风设备或者麦克风阵列，且扩展麦的级联方式可采用有线或者无线的方式，以有利于基于对空间的分布式覆盖，进一步拉近拾音距离。

所应用的会议场景可表现为由级联扩展麦所覆盖的会议场景，通信一体机设备具体可表现为会议音频设备。其中，扩展麦作为拾音设备，可对会议室空间下的音频信号进行拾取，此时所拾取的音频信号可以包含拾取对象的语音部分的信号，例如主讲人的人声，以及会议室内干扰部分(包含噪声和混响)的信号，扩展麦在对这些音频信号进行拾取后，可通过一体机设备中的主机设备对所拾取的音频信号进行处理，其处理过程包括通过3A算法所进行的预处理过程以及音频编解码的处理过程，以便通过网络将处理后的音频信息传输至会议的另一端，然而当扩展麦对音频信号处理不佳，尤其是在环境噪音较大的情况下，将会直接影响到对拾取对象的语音进行拾取的效果，从而导致会议的另一端无法听清对方的语音，此时需要对用于音频输出至会议另一端的音频信道进行选择。需要说明的是，拾音设备对会议空间下拾音对象进行音频的采集操作，是在会议空间内所有拾音对象知晓且允许的情况下进行的。

对用于音频输出至会议另一端的音频信道的选择，具体可通过主机设备对目标音频信道的确定实现，主机设备在选择目标音频信道时的出发点在于，不选择靠近噪音源的音频信道，而是选择靠近拾取对象的音频信道，但在噪音源所产生的噪音能量可能大于拾取对象的音频能量时，需要主机设备将音频信号中的语音部分的能量(即音频能量)进行提取，然后将所提取的音频能量在不同频段中进行比较，然后再确定能够反映语音质量高的目标音频信道。

具体的，对音频能量的提取具体可表现为对音频信号所进行的语音增强操作，所进行的语音增强操作实质上为降噪以及去混响操作，在会议室的场景下，所进行的降噪操作可表现为去除环境和会议室常见的噪音，例如空调运行所产生的声声、键盘与鼠标敲击声或者所产生的其他声音、敲桌声、水杯、桌椅发出的声响等；所进行的去混响操作可表现为去除会议室密闭空间造成的混响效应，例如空间距离感，噪音和混响这两个因素都将使得语音的质量急剧下降，基于降噪与去混响的操作消除这两个效应，能够使得音频语音更清晰，提高语音质量。

然后此时可采用所提取的音频能量的能量平滑信息，从多个音频信道中确定目标音频信道。具体可在各个频带中对比不同音频信道的音频能量，对相同频带中音频能量最高值的音频信道进行投票或者加分，即对于任一频带而言，可将音频能量最高值的音频信道作为此频带下的最佳信道，进行投票或者加分，然后可累加各个音频信道在所有频带的投票或者分数，将投票数或者分数大于预设分数阈值或者票数最高的音频信道为最佳信道，即最终用于输出音频的目标音频信道。

在实际应用中，当作为拾音设备的扩展麦对空间内拾音对象的音频进行拾取后，需要将所拾取的音频信号输出至音视频设备终端主机的另一端，此时需要确定用于将音频输出至另一端时所采用的音频信道，即具体确定级联扩展麦中某个扩展麦的音频信道作为用于音频输出的目标音频信道，其具体可表现为对某个扩展麦的音频信道的选择，以便在多级联扩展麦对音频进行拾取后，采用所确定的某个扩展麦的音频信道进行音频传输。

示例性地，在采用所确定的某个扩展麦的音频信道进行音频输出时，其所输出的音频可以为此扩展麦在通过拾音通道采集的音频信号，且通常此扩展麦可以为离拾音对象的拾音距离相较短的扩展麦，例如图4所示，距离拾取对象较短的扩展麦为扩展麦B、距离拾取对象较长的扩展麦为扩展麦C，其中扩展麦B距离拾取对象的距离较近，其拾取距离的近通常指的是信噪比越高，拾取对象的音频直达声比混响声越强，语音质量/清晰度越高；而扩展麦C的拾音通道的音频大部分为附近的噪声源信号，例如键盘鼠标声，其噪声源的能量，即干扰声能量可能比拾音对象的音频能量还大，所传输到另一端的语音质量将会非常差，那么此时所确定的目标音频信道可能是扩展麦B，而并不是扩展麦C。

需要说明的是，本申请实施例所提出的音频信道自动选择方案，不仅可应用在会议场景，还可应用在对音频进行拾音的任意场景，且并不限制于采用级联式扩展麦进行拾音的方案，对此，本申请实施例对此不加以限制。

在本申请实施例中，基于语音增强后的能量平滑信息确定最佳的音频信道输出，其可对级联扩展麦的音频信号进行语音增强操作，通过采用单通道智能降噪和去混响方案对级联扩展麦中的每个扩展麦实现语音增强，以尽可能提取出所采集的音频信号中清晰的语音部分，然后再用基于简洁的能量平滑信息从多个音频信道中判别最佳的目标音频信道，以采用所确定的目标音频信道进行音频输出，即基于所提取的清晰语音部分的能量对最佳的拾音信道进行确定，避免最终确定的音频信道受到噪声和混响的过多干扰，使得所确定的目标音频信道较为准确；且基于语音增强后采用能量进行判断的方式，可在采用原有音频算法的基础上，对级联扩展麦的音频信号进行额外的语音增强操作，即其可沿用当前的音频算法，模块计算量小，并在融合语音增强方案的情况下增强级联扩展麦的最终效果，在现有算法框架下能达到快速融合以及最终音频信道选择进度高的目的，提高级联扩展麦的抗干扰鲁棒性，实现级联扩展麦对最终用于输出音频的目标音频信道，即最佳的音频信道的选择。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图5，示出了本申请的一种音频信道的选择装置实施例的结构框图，涉及级联扩展麦，具体可以包括如下模块：

语音增强模块501，用于对所述级联扩展麦的音频信号进行语音增强操作，得到语音增强后的音频信号；

能量平滑信息获取模块502，用于获取针对所述语音增强后的音频信号的能量平滑信息；

目标音频信道确定模块503，用于根据所述能量平滑信息，确定用于音频输出的目标音频信道。

在本申请的一种实施例中，所述级联扩展麦包括至少两个扩展麦；语音增强模块501可以包括如下子模块：

在本申请的一种实施例中，语音增强子模块可以包括如下单元：

在本申请的一种实施例中，语音增强子模块还可以包括如下单元：

干扰声能量生成单元可以包括如下子单元：

在本申请的一种实施例中，能量平滑信息获取模块502可以包括如下子模块：

在本申请的一种实施例中，所述能量平滑信息包括针对音频能量的能量平滑谱；目标音频信道确定模块503可以包括如下子模块：

在本申请的一种实施例中，音频能量对比子模块可以包括如下单元：

在本申请的一种实施例中，音频信道评分单元可以包括如下子单元：

目标音频信道确定单元可以包括如下子单元：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例还提供了一种电子设备，包括：

包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述音频信道的选择方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述音频信道的选择方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种音频信道的选择方法、一种音频信道的选择装置、相应的一种电子设备以及相应的一种计算机存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频信道的选择方法，其特征在于，涉及级联扩展麦，所述方法包括：

获取针对所述语音增强后的音频信号的能量平滑信息；

2.根据权利要求1所述的方法，其特征在于，所述级联扩展麦包括至少两个扩展麦；所述对所述级联扩展麦的音频信号进行语音增强操作，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述对所述级联扩展麦的音频信号进行语音增强操作，得到语音增强后的音频信号，包括：

基于所述频域信息进行估计得到干扰声能量；

4.根据权利要求3所述的方法，其特征在于，所述基于所述频域信息进行估计得到干扰声能量，还包括：

所述基于所述频域信息进行估计得到干扰声能量，包括：

采用所述比例信息从所述频域能量中估计得到干扰声能量。

5.根据权利要求4所述的方法，其特征在于，所述采用所述干扰声能量去除所述音频信号中的干扰部分，得到语音增强后的音频信号，包括：

从所述频域能量中减去干扰声能量，得到音频能量；

确定所述音频能量相应的信号为语音增强后的音频信号。

6.根据权利要求1所述的方法，其特征在于，所述获取针对所述语音增强后的音频信号的能量平滑信息，包括：

7.根据权利要求1或6所述的方法，其特征在于，所述能量平滑信息包括针对音频能量的能量平滑谱；所述根据所述能量平滑信息，确定用于音频输出的目标音频信道，包括：

8.根据权利要求7所述的方法，其特征在于，所述对比不同音频信道在不同频带的音频能量，确定多个音频信道中用于音频输出的目标音频信道，包括：

获取在各个频带中不同音频信道的音频能量；

基于评分结果从多个音频信道中确定目标音频信道。

9.根据权利要求8所述的方法，其特征在于，基于所述不同音频信道在各个频带的音频能量，对所述音频信道进行评分，包括：

10.一种音频信道的选择装置，其特征在于，涉及级联扩展麦，所述装置包括：

11.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-9中任一项所述音频信道的选择方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述音频信道的选择方法的步骤。