CN111009259A

CN111009259A - 一种音频处理方法和装置

Info

Publication number: CN111009259A
Application number: CN201811167458.0A
Authority: CN
Inventors: 李冬; 龙德平; 柯常志
Original assignee: Hangzhou Haikang Huiying Technology Co ltd
Current assignee: Hangzhou Haikang Huiying Technology Co ltd
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2020-04-14
Anticipated expiration: 2038-10-08
Also published as: CN111009259B

Abstract

本申请公开了一种音频处理方法和装置，其中方法包括：利用定向音频采集设备输出的音频，对全向音频采集设备输出的音频进行自适应增益调节；对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音，输出混音结果。采用本发明，可以提高语音互动场景下的声音采集质量。

Description

一种音频处理方法和装置

技术领域

本发明涉及声音采集技术，特别是涉及一种音频处理方法和装置。

背景技术

现有的声音采集方案中，在多媒体教室教学场景下，通过多麦克风阵列完成授课时环境音的获取，通过无线定向麦克风完成授课时老师的声音获取，之后经过降噪和多路音频均衡模块以及混音模块，把老师的声音与环境音合成一路并输出。

上述现有的声音采集方案中，通过音频均衡之后进行混音，可以一定程度上保证老师的声音清晰。但是，实际教学场景中，会存在老师和学生之间的语音互动，此时，不仅定向采集的老师声音属于重要声音，全向采集的环境音中的学生声音也很重要，需要具有一定的清晰度。

本发明人通过研究分析发现：对于环境中存在的重要人声并伴随单调噪声的场景，上述方案由于仅是在混音前做了简单地音频均衡，对环境音中的重要人声并不进行有针对性的处理，因此，无法确保环境中重要人声的清晰度。

由此可见，采用现有的声音采集方案，无法确保语音互动场景下重要声音的清晰度，进而无法满足语音互动场景下的声音采集质量。

发明内容

有鉴于此，本发明的主要目的在于提供一种音频处理方法和装置，可以提高语音互动场景下的声音采集质量。

为了达到上述目的，本发明实施例提出的技术方案为：

一种音频处理方法，包括：

利用定向音频采集设备输出的音频，对全向音频采集设备输出的音频进行自适应增益调节；

对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音，输出混音结果。

较佳地，所述对全向音频采集设备输出的音频进行自适应增益调节包括：

利用所述定向音频采集设备输出的音频的能量平均值，对所述全向音频采集设备输出的音频进行自适应增益调节。

将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频；

在每个采样时刻，按照预设的滑动窗口，计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值，并利用神经网络模型，从当前滑动窗口对应的全向音频采集设备的单声道音频中，分离出有效音频；

根据所述能量平均值，对所述有效音频进行增益自适应处理。

利用第一语音回传设备输入的音频，作为回声消除的参考音频，分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除；

在每个采样时刻，按照预设的滑动窗口，计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值，以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值，并利用神经网络模型，从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中，分离出有效音频；根据所述能量平均值，对所述有效音频进行增益自适应处理。

较佳地，所述根据所述能量平均值，对所述有效音频进行增益自适应处理包括：

当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时，如果定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值小于预设的比例阈值，则对所述有效音频进行相应的能量抑制处理；

当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时，如果全向音频采集设备对应的所述能量平均值大于预设的人耳可接受范围的最大能量阈值，则对所述有效音频进行相应的能量抑制处理，如果全向音频采集设备对应的所述能量平均值小于预设的人耳可接受范围的最小能量阈值，则对所述有效音频进行相应的能量增强处理。

较佳地，所述分离出有效音频包括：

对于当前滑动窗口对应的全向音频采集设备的单声道音频，或者当前滑动窗口对应的全向音频采集设备的消除回声后的音频，进行耳蜗滤波处理；

从经过所述耳蜗滤波处理后的音频中，提取出时域特征，所述时域特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP以及幅度调制谱；

采用有监督的学习方式，将所述时域特征作为所述神经网络模型的输入，对所述神经网络模型进行训练，得到相应的模型参数；

基于所述模型参数，利用所述神经网络模型估计出时域上的二值掩蔽IBM；

利用所述二值掩蔽，对经过所述耳蜗滤波处理后的音频进行波形重构，提取出所述有效音频。

较佳地，所述神经网络模型为卷积神经网络模型。

一种音频处理装置，包括：

自适应调节模块，用于利用定向音频采集设备输出的音频，对全向音频采集设备输出的音频进行自适应增益调节；

混音模块，用于对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音，输出混音结果。

较佳地，所述自适应调节模块，用于利用所述定向音频采集设备输出的音频的能量平均值，对所述全向音频采集设备输出的音频进行自适应增益调节。

较佳地，所述自适应调节模块，用于将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频；在每个采样时刻，按照预设的滑动窗口，计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值，并利用神经网络模型，从当前滑动窗口对应的全向音频采集设备的单声道音频中，分离出有效音频；根据所述能量平均值，对所述有效音频进行增益自适应处理。

较佳地，所述自适应调节模块，用于将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频；利用第一语音回传设备输入的音频，作为回声消除的参考音频，分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除；在每个采样时刻，按照预设的滑动窗口，计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值，以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值，并利用神经网络模型，从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中，分离出有效音频；根据所述能量平均值，对所述有效音频进行增益自适应处理。

较佳地，其特征在于，所述自适应调节模块，用于当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时，如果定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值小于预设的比例阈值，则对所述有效音频进行相应的能量抑制处理；当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时，如果全向音频采集设备对应的所述能量平均值大于预设的人耳可接受范围的最大能量阈值，则对所述有效音频进行相应的能量抑制处理，如果全向音频采集设备对应的所述能量平均值小于预设的人耳可接受范围的最小能量阈值，则对所述有效音频进行相应的能量增强处理。

较佳地，所述自适应调节模块，用于对于当前滑动窗口对应的全向音频采集设备的单声道音频，或者当前滑动窗口对应的全向音频采集设备的消除回声后的音频，进行耳蜗滤波处理；从经过所述耳蜗滤波处理后的音频中，提取出时域特征，所述时域特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP以及幅度调制谱；采用有监督的学习方式，将所述时域特征作为所述神经网络模型的输入，对所述神经网络模型进行训练，得到相应的模型参数；基于所述模型参数，利用所述神经网络模型估计出时域上的二值掩蔽IBM；利用所述二值掩蔽，对经过所述耳蜗滤波处理后的音频进行波形重构，提取出所述有效音频。

较佳地，所述神经网络模型为卷积神经网络模型。

一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如上述音频处理方法的步骤。

一种电子设备，包括如上述非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。

综上所述，本发明实施例提出的音频处理方案，在进行混音处理前，通过利用定向音频采集设备输出的音频，对全向音频采集设备输出的音频进行自适应增益调节，既可以对环境音中的噪音进行过滤，又可以对环境音中的有效音频进行自适应调节，从而可以增强语音互动环境中重要声音的清晰度，因此可以提高语音互动场景下的声音采集质量，使得混音之后的音频清晰有效，也使得互动环境真实有效。

附图说明

图1为本发明实施例的方法流程示意图；

图2为本发明实施例的一种应用场景示意图；

图3为图1中步骤101的一种实现方式的流程示意图；

图4为图1中步骤101的另一种实现方式的流程示意图；

图5为本发明实施例的装置结构示意图。

具体实施方式

为了对发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式，在各图中相同的标号表示相同的部分。

在本文中，“示意性”表示“充当实例、例子或说明”，不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。

为使图面简洁，各图中的只示意性地表示出了与本发明相关部分，而并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。

在本文中，“第一”、“第二”等仅用于彼此的区分，而非表示重要程度及顺序、以及互为存在的前提等。

图1为本发明实施例的音频处理方法流程示意图，如图1所示，在一个实施例中，音频处理方法的过程主要包括：

步骤101、利用定向音频采集设备输出的音频，对全向音频采集设备输出的音频进行自适应增益调节。

在实际应用，定向音频采集设备具体可以为定向麦克风，全向音频采集设备具体可以为全向拾音器，但不限于此。

本步骤中与现有技术不同之处在于，需要利用定向音频采集设备输出的音频，对全向音频采集设备输出的音频进行自适应增益调节，这样，既可以过滤掉环境音中的噪音，又可以对环境音中的有效音频进行自适应调节，从而可以增强语音互动环境中有效音频的清晰度。

较佳地，可以利用所述定向音频采集设备输出的音频的能量平均值，对所述全向音频采集设备输出的音频进行自适应增益调节。

在实际应用中，并限于基于音频的能量平均值进行所述自适应增益调节，本领域技术人员还可以考虑基于其他的音频参数指标进行所述自适应增益调节，例如，音频的幅度平均值，在此不再赘述。

在实际场景中可能会同时存在功放和拾音器，这样，功放播出的声音会被拾音器采集，使得整个音频回路中出现回声。此场景下需要先对这种回声进行去除，即消除回声。如图2所示的语音交互场景，两台主机分别位于示教室1与示教室2，并通过以太网实现两端的语音传输，实现互动。在示教室1中，定向麦克风主要采集主讲老师的音频信息，全向拾音器主要采集示教室1内的环境音频。在示教室2中，定向麦克风主要采集某位学生的相关音频信息，全向拾音器主要采集示教室2内的环境音频。该场景下，示教室2中采集的音频会在示教室1的功放中播放，这样，在示教室1中会产生回声需要进行消除。

基于此，接下来将分别针对需要进行回声消除场景和不需要进行回声消除场景，对步骤101的具体实现进行说明：

在不需要进行回声消除场景下，较佳地，如图3所示，步骤101可以采用下述方法实现：

步骤101a1、将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频。

本步骤中，考虑到相对于双声道音频，基于单声道音频的处理更为简单些，因此，这里需要先分别将每个音频采集设备输出的音频转换为单声道音频。具体地双声道音频转换为单声道音频的方法为本领域技术人员所掌握，在此不再赘述。

步骤101a2、在每个采样时刻，按照预设的滑动窗口，计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值，并利用神经网络模型，从当前滑动窗口对应的全向音频采集设备的单声道音频中，分离出有效音频。

本步骤中将从当前滑动窗口对应的全向音频采集设备的单声道音频中，分离出有效音频，以便在后续步骤中进一步基于分离出的有效音频进行相应的增益自适处理。

需要说明的是，语音分离技术主要分为基于多通道的语音分离和基于单通道的语音分离。多通道的语音分离，主要通过多麦克阵列来获取音源的相互关系，并以此来估计目标的空域信息，常用的方法有波束形成法以及独立成分分析法。单通道的语音分离，主要通过目标语音以及干扰信号的声学和统计特性，从混合的音源中提取出目标语音。相对多通道的方法，单通道的语音分离由于缺少空域信息，导致处理过程相对复杂，难度也较大。但是，人脑可以很轻松地在单通道的录音中区分出噪声与有效音源，这说明空域信息并非语音分离的必要条件，利用时域与频域两方面的信息，就可以较好的完成语音分离。基于这个背景，本发明实施例中将基于神经网络模型进行有效音频的分离。较佳地，步骤101a2中可以采用下述方法，基于神经网络模型进行上述有效音频的分离：

步骤x1、对于当前滑动窗口对应的全向音频采集设备的单声道音频，进行耳蜗滤波处理。

步骤x2、从经过所述耳蜗滤波处理后的音频中，提取出时域特征。

所述时域特征包括梅尔倒谱系数(MFCC)、感知线性预测系数(PLP)以及幅度调制谱。

上述特征的提取可采用下述方法实现：

首先，对输入的音频信号进行时域信号到频域的变换(例如，采用FFT快速傅里叶变换)，得到相关的频谱图。

对于MFCC的获取，首先通过对获取的频谱图进行梅尔滤波生成梅尔频谱，之后，对梅尔频谱进行倒谱分析(取对数并进行DCT变换)，从而将输入音频分解为噪音分量与声道信息分量，最终通过分析声道信息分量来获得MFCC。

对于PLP的提取，首先通过对获取的频谱图进行临界带分析，其中临界带分析主要进行频域信号到Bark域的转换，之后通过人耳模型进行能量的调整，最后，结合全极点模型，输出PLP特征参数。

步骤x3、采用有监督的学习方式，将所述时域特征作为所述神经网络模型的输入，对所述神经网络模型进行训练，得到相应的模型参数。

本步骤的具体实现为本领域技术人员所掌握，在此不再赘述。

步骤x4、基于所述模型参数，利用所述神经网络模型估计出时域上的二值掩蔽IBM。

步骤x5、利用所述二值掩蔽，对经过所述耳蜗滤波处理后的音频进行波形重构，提取出所述有效音频。

本步骤中，波形重构的具体方法为本领域技术人员所掌握，在此不再赘述。

在上述方法中，通过利用神经网络模型进行有效音频的分离，既可以对环境音中的噪音进行有效过滤，又可以增强环境音中的有效音频的清晰度。

较佳地，所述神经网络模型可以为卷积神经网络模型。

步骤101a3、根据所述能量平均值，对所述有效音频进行增益自适应处理。

较佳地，本步骤中可以采用下述方法对所述有效音频进行增益自适应处理：

当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时，如果定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值小于预设的比例阈值，则对所述有效音频进行相应的能量抑制处理。

这里，当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时，说明定向音频采集设备中采集到了有效的目标音频，此时，应以定向音频采集设备输出的声音为主，因此，如果此时全向音频采集设备采集的音频能量较大时，即定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值较小时，需要对全向音频采集设备中的有效音频进行抑制处理，以突出定向音频采集设备输出的音频，增强了定向采集的音频在之后混音后的清晰度。

而当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时，说明定向音频采集设备中没有有效的目标音频输出，此时，需要对全向音频采集设备中的有效音频进行抑制或增强处理，以使得混音后，环境音中的有效音频得到突出，且强度在人耳可接受范围内，即不能过大也不能太小。

上述能量阈值、比例阈值、最大能量阈值以及最大能量阈值，具体可由本领域技术人员根据实际需要预先设置合适取值。

在需要进行回声消除场景下，较佳地，如图4所示步骤101可以采用下述方法实现：

步骤101b1、将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频。

步骤101b2、利用第一语音回传设备输入的音频，作为回声消除的参考音频，分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除。

步骤101b3、在每个采样时刻，按照预设的滑动窗口，计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值，以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值，并利用神经网络模型，从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中，分离出有效音频。

较佳地，步骤101b3中可以采用下述方法进行有效音频的分离：

步骤y1、对于当前滑动窗口对应的全向音频采集设备的消除回声后的音频，进行耳蜗滤波处理。

步骤y2、从经过所述耳蜗滤波处理后的音频中，提取出时域特征，所述时域特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP以及幅度调制谱。

本步骤的具体实现同步骤x2，在此不再赘述。

步骤y3、采用有监督的学习方式，将所述时域特征作为所述神经网络模型的输入，对所述神经网络模型进行训练，得到相应的模型参数。

较佳地，所述神经网络模型可以为卷积神经网络模型。

步骤y4、基于所述模型参数，利用所述神经网络模型估计出时域上的二值掩蔽IBM。

步骤y5、利用所述二值掩蔽，对经过所述耳蜗滤波处理后的音频进行波形重构，提取出所述有效音频。

本步骤的具体实现同步骤x5，在此不再赘述。

步骤101b4、根据所述能量平均值，对所述有效音频进行增益自适应处理。

本步骤的具体实现同步骤101a3，即较佳地可以采用下述方法对所述有效音频进行增益自适应处理：

步骤102、对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音，输出混音结果。

通过上述方法实施例可以看出，经过上述方法处理之后的输出音频，既可以凸显出定向音频采集设备的主音声音，又去除了全向音频采集设备中的环境噪声，使得混音之后的音频，清晰有效，也使得互动环境，真实有效。

图5为与上述方法实施例相对应的一种音频处理装置实施例的结构示意图，如图5所示，该装置包括：

自适应调节模块501，用于利用定向音频采集设备输出的音频，对全向音频采集设备输出的音频进行自适应增益调节。

混音模块502，用于对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音，输出混音结果。

较佳地，所述自适应调节模块501，用于利用所述定向音频采集设备输出的音频的能量平均值，对所述全向音频采集设备输出的音频进行自适应增益调节。

较佳地，自适应调节模块501，用于将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频；在每个采样时刻，按照预设的滑动窗口，计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值，并利用神经网络模型，从当前滑动窗口对应的全向音频采集设备的单声道音频中，分离出有效音频；根据所述能量平均值，对所述有效音频进行增益自适应处理。

较佳地，自适应调节模块501，用于将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频；利用第一语音回传设备输入的音频，作为回声消除的参考音频，分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除；在每个采样时刻，按照预设的滑动窗口，计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值，以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值，并利用神经网络模型，从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中，分离出有效音频；根据所述能量平均值，对所述有效音频进行增益自适应处理。

较佳地，自适应调节模块501，用于当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时，如果定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值小于预设的比例阈值，则对所述有效音频进行相应的能量抑制处理；当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时，如果全向音频采集设备对应的所述能量平均值大于预设的人耳可接受范围的最大能量阈值，则对所述有效音频进行相应的能量抑制处理，如果全向音频采集设备对应的所述能量平均值小于预设的人耳可接受范围的最小能量阈值，则对所述有效音频进行相应的能量增强处理。

较佳地，自适应调节模块501，用于对于当前滑动窗口对应的全向音频采集设备的单声道音频，或者当前滑动窗口对应的全向音频采集设备的消除回声后的音频，进行耳蜗滤波处理；从经过所述耳蜗滤波处理后的音频中，提取出时域特征，所述时域特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP以及幅度调制谱；采用有监督的学习方式，将所述时域特征作为所述神经网络模型的输入，对所述神经网络模型进行训练，得到相应的模型参数；基于所述模型参数，利用所述神经网络模型估计出时域上的二值掩蔽IBM；利用所述二值掩蔽，对经过所述耳蜗滤波处理后的音频进行波形重构，提取出所述有效音频。

一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如上述音频处理方法实施例的步骤。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对全向音频采集设备输出的音频进行自适应增益调节包括：

3.根据权利要求2所述的方法，其特征在于，所述对全向音频采集设备输出的音频进行自适应增益调节包括：

4.根据权利要求2所述的方法，其特征在于，所述对全向音频采集设备输出的音频进行自适应增益调节包括：

5.根据权利要求3或4所述的方法，其特征在于，所述根据所述能量平均值，对所述有效音频进行增益自适应处理包括：

6.根据权利要求3或4所述的方法，其特征在于，所述分离出有效音频包括：

7.根据权利要求3或4所述的方法，其特征在于，所述神经网络模型为卷积神经网络模型。

8.一种音频处理装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述自适应调节模块，用于利用所述定向音频采集设备输出的音频的能量平均值，对所述全向音频采集设备输出的音频进行自适应增益调节。

10.根据权利要求9所述的装置，其特征在于，所述自适应调节模块，用于将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频；在每个采样时刻，按照预设的滑动窗口，计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值，并利用神经网络模型，从当前滑动窗口对应的全向音频采集设备的单声道音频中，分离出有效音频；根据所述能量平均值，对所述有效音频进行增益自适应处理。

11.根据权利要求9所述的装置，其特征在于，所述自适应调节模块，用于将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频；利用第一语音回传设备输入的音频，作为回声消除的参考音频，分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除；在每个采样时刻，按照预设的滑动窗口，计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值，以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值，并利用神经网络模型，从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中，分离出有效音频；根据所述能量平均值，对所述有效音频进行增益自适应处理。

12.根据权利要求10或11所述的装置，其特征在于，所述自适应调节模块，用于当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时，如果定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值小于预设的比例阈值，则对所述有效音频进行相应的能量抑制处理；当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时，如果全向音频采集设备对应的所述能量平均值大于预设的人耳可接受范围的最大能量阈值，则对所述有效音频进行相应的能量抑制处理，如果全向音频采集设备对应的所述能量平均值小于预设的人耳可接受范围的最小能量阈值，则对所述有效音频进行相应的能量增强处理。

13.根据权利要求10或11所述的装置，所述自适应调节模块，用于对于当前滑动窗口对应的全向音频采集设备的单声道音频，或者当前滑动窗口对应的全向音频采集设备的消除回声后的音频，进行耳蜗滤波处理；从经过所述耳蜗滤波处理后的音频中，提取出时域特征，所述时域特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP以及幅度调制谱；采用有监督的学习方式，将所述时域特征作为所述神经网络模型的输入，对所述神经网络模型进行训练，得到相应的模型参数；基于所述模型参数，利用所述神经网络模型估计出时域上的二值掩蔽IBM；利用所述二值掩蔽，对经过所述耳蜗滤波处理后的音频进行波形重构，提取出所述有效音频。

14.根据权利要求10或11所述的装置，其特征在于，所述神经网络模型为卷积神经网络模型。