CN113643714B

CN113643714B - 音频处理方法、装置、存储介质及计算机程序

Info

Publication number: CN113643714B
Application number: CN202111194926.5A
Authority: CN
Inventors: 王子腾; 纳跃跃; 刘章; 田彪; 付强
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2022-02-18
Anticipated expiration: 2041-10-14
Also published as: CN113643714A; WO2023061258A1

Abstract

本发明公开了一种音频处理方法、装置、存储介质及计算机程序。其中，该方法包括：获取待测试音频的特征向量；将待测试音频的特征向量输入目标模型进行处理，得到目标时频掩蔽信息，其中，目标模型用于确定混响音频对应的时频掩蔽信息，时频掩蔽信息用于将混响音频处理为目标类型音频，目标类型音频中包含混响音频对应的声源的直达声和早期反射声；根据目标时频掩蔽信息处理待测试音频，得到目标音频。本发明解决了由于空间内的混响现象的存在，导致拾音设备采集到的音频的清晰度低的技术问题。

Description

音频处理方法、装置、存储介质及计算机程序

技术领域

本发明涉及音频处理技术领域，具体而言，涉及一种音频处理方法、装置、存储介质及计算机程序。

背景技术

混响是空间内的声源发音停止后声音继续存在的声学现象，混响的存在使得音频采集设备采集到的语言清晰度低，影响采集到的语音的可懂度。

其中，在较大的空间内，为了采集到空间各个区域发出的声音，需要采用两个或者多个拾音设备共同配合拾取空间内产生的音频，但是，由于空间较大，拾音设备采集的声音混响感非常明显，从而降低了采集到的音频内容的可懂度。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音频处理方法、装置、存储介质及计算机程序，以至少解决由于空间内的混响现象的存在，导致拾音设备采集到的音频的清晰度低的技术问题。

根据本发明实施例的一个方面，提供了一种音频处理方法，包括：获取待测试音频的特征向量；将待测试音频的特征向量输入目标模型进行处理，得到目标时频掩蔽信息，其中，目标模型用于确定混响音频对应的时频掩蔽信息，时频掩蔽信息用于将混响音频处理为目标类型音频，目标类型音频中包含混响音频对应的声源的直达声和早期反射声；根据目标时频掩蔽信息处理待测试音频，得到目标音频。

根据本发明实施例的另一方面，还提供了另一种音频处理方法，包括：云服务器接收待测试音频；云服务器获取待测试音频的特征向量，采用目标模型对待测试音频的特征向量进行处理，得到目标时频掩蔽信息，并根据目标时频掩蔽信息处理待测试音频，得到目标音频，其中，目标模型用于确定混响音频对应的时频掩蔽信息，时频掩蔽信息用于将混响音频处理为目标类型音频，目标类型音频中包含混响音频对应的声源的直达声和早期反射声；云服务器返回目标音频至客户端。

根据本发明实施例的另一方面，还提供了另一种音频处理方法，包括：采集待测试音频，并在音频播放器播放待测试音频；在音频播放器播放待测试音频对应的目标音频，其中，目标音频是通过目标时频掩蔽信息对待测试音频进行处理后得到的音频，目标时频掩蔽信息是通过目标模型对待测试音频的特征向量进行处理得到的信息，目标模型用于确定混响音频对应的时频掩蔽信息。

根据本发明实施例的另一方面，还提供了另一种音频处理方法，包括：通过至少两个采集器采集教学空间内产生的音频，得到第一音频；获取第一音频的特征向量，并将第一音频的特征向量输入目标模型进行处理，得到目标时频掩蔽信息，其中，目标模型用于确定混响音频对应的时频掩蔽信息，时频掩蔽信息用于将混响音频处理为目标类型音频，目标类型音频中包含混响音频对应的声源的直达声和早期反射声；根据目标时频掩蔽信息处理第一音频，得到第二音频；将第二音频发送至教学空间所对应的远端课堂。

根据本发明实施例的另一方面，还提供了一种音频处理装置，包括：第一获取单元，用于获取待测试音频的特征向量；第一处理单元，用于将待测试音频的特征向量输入目标模型进行处理，得到目标时频掩蔽信息，其中，目标模型用于确定混响音频对应的时频掩蔽信息，时频掩蔽信息用于将混响音频处理为目标类型音频，目标类型音频中包含混响音频对应的声源的直达声和早期反射声；第二处理单元，用于根据目标时频掩蔽信息处理待测试音频，得到目标音频。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述任意一种音频处理方法。

根据本发明实施例的另一方面，还提供了一种计算机程序，其特征在于，计算机程序被处理器执行时实现上述任意一种音频处理方法。

在本发明实施例中，通过获取待测试音频的特征向量；将待测试音频的特征向量输入目标模型进行处理，得到目标时频掩蔽信息，其中，目标模型用于确定混响音频对应的时频掩蔽信息，时频掩蔽信息用于将混响音频处理为目标类型音频，目标类型音频中包含混响音频对应的声源的直达声和早期反射声；根据目标时频掩蔽信息处理待测试音频，得到目标音频。通过目标模型对待测试音频进行处理，得到目标时频掩蔽信息，并采用目标时频掩蔽信息处理待测试音频，得到目标音频，达到了抑制待测试音频中的混响的目的，从而实现了提高拾音设备采集到的音频的清晰度的技术效果，进而解决了由于空间内的混响现象的存在，导致拾音设备采集到的音频的清晰度低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的计算机终端的硬件结构框图；

图2是根据本发明实施例一提供的音频处理方法的流程图；

图3是根据本发明实施例中房间冲击响应的幅度示意图；

图4是根据本发明实施例中房间冲击响应的信号示意图；

图5是根据本发明实施例二提供的音频处理方法的流程图；

图6是根据本发明实施例三提供的音频处理方法的流程图；

图7是根据本发明实施例四提供的音频处理方法的流程图；

图8是根据本发明实施例五提供的音频处理方法的流程图；

图9是根据本发明实施例六提供的音频处理装置的示意图；

图10是根据本发明实施例的可选的计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了解决相关技术中由于空间内的混响现象的存在，导致拾音设备采集到的音频的清晰度低的技术问题，相关技术中出现了以下方法：

1、基于信号处理方式实现混响抑制，具体地，单通道拾音场景下，通过预先假设的混响统计模型来估计晚期混响能量来计算维纳增益，从而根据维纳增益对采集到的音频进行混响抑制，混响抑制效果不明显；在多通道场景，采用WPE方法（Weighted PredictionError for speech dereverberation），在麦克风数据较少时算法处理后的听感改善并不明显。

2、基于深度学习模型的混响抑制算法，采用直达声作为训练和恢复目标，由于混响抑制程度在时间上不够平滑，其处理后的音频会存在较明显的能量起伏，听感不自然。此外，目前的深度学习模型混响抑制算法只考虑了单个拾音设备，没有充分利用考虑多个拾音设备的互补信息，混响抑制效果不佳。

基于此，本申请希望提供一种能够解决上述技术问题的方案，其详细内容将在后续实施例中得以阐述。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

混响：混响是声源发音停止后声音继续存在的声学现象。

RIR：（Room Impluse Response），房间冲击响应，可以用来描述房间混响特性，RIR包含时间上连续的三个部分：直达声、早期反射声和晚期混响。

DFSMN：（Deep Feedforward Sequential Memory Network），深度前馈记忆网络，是一种神经网络模型结构。

实施例1

根据本发明实施例，提供了一种音频处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现音频处理方法的计算机终端（或移动设备）的硬件结构框图。如图1所示，计算机终端10（或移动设备10）可以包括一个或多个（图中采用102a、102b，……，102n来示出）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）、用于存储数据的存储器104、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口（I/O接口）、通用串行总线（USB）端口（可以作为I/O接口的端口中的一个端口被包括）、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10（或移动设备）中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制（例如与接口连接的可变电阻终端路径的选择）。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的音频处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的音频处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器（Network Interface Controller，NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器（LCD），该液晶显示器可使得用户能够与计算机终端10（或移动设备）的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的音频处理方法。图2是根据本发明实施例一的音频处理方法的流程图。

S21，获取待测试音频的特征向量。

具体地，待测试音频可以是拾音器对声源发出的声音进行采集得到的音频，拾音器和声源处于同一目标空间内，目标空间可以为房间，由于房间内的混响现象的存在，待测试音频为混响音频。

为了便于对待测试音频进行处理，可以先提取待测试音频的特征向量，可选地，在本发明实施例的音频处理方法中，获取待测试音频的特征向量包括：对待测试音频进行傅里叶变换，得到待测试音频的频域信息，从频域信息中获取待测试音频的特征向量。

具体地，可以先通过短时傅里叶变换（short-time Fourier transform，STFT）将待测试音频从时域转换到频域，得到待测试音频对应的时频谱，时频谱用于表征频域信息，再从时频谱中获取频域特征向量，例如，可以从时频谱中获取滤波器组（filter bank），还可以获取梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficients ，MFCC），伽马通滤波器组（Gammatone filter bank）等特征向量，本申请实施例不限定获取的特征向量的具体类型。

S22，将待测试音频的特征向量输入目标模型进行处理，得到目标时频掩蔽信息，其中，目标模型用于确定混响音频对应的时频掩蔽信息，时频掩蔽信息用于将混响音频处理为目标类型音频，目标类型音频中包含混响音频对应的声源的直达声和早期反射声。

需要说明的是，目标模型可以为神经网络模型，神经网络模型的结构可以包括：第一层线性变化单元，后面连接有6层或9层的DFSMN（Deep Feedforward Sequential MemoryNetwork，深度前馈记忆网络），每一层DFSMN都存在激活函数，激活函数具体地可以为RELU或Sigmoid，在DFSMN之的一层线性变化单元，一季输出层的非线性激活函数Sigmoid。此外，DFSMN可以替换为LSTM（Long Short-Term Memory，长短期记忆网络）、GRU（GatedRecurrent Unit，门控循环单元）等模型单元，或者LSTM和GRU的组合，本实施例不限定神经网络单元的类型。

具体地，目标模型可以由多组混响音频及其对应的时频掩蔽信息训练得到，从而使得模型输入待测试混响音频对应的特征变量，即可输出目标时频掩蔽信息，由于频掩蔽信息可以用于抑制混响音频中的混响特征，采用目标时频掩蔽信息对待测试混响音频进行处理，可以得到目标音频。

需要说明的是，房间混响特性可以用房间冲击响应（Room Impluse Response，RIR）来描述，图3是根据本发明实施例中房间冲击响应的幅度示意图，图4是根据本发明实施例中房间冲击响应的信号示意图，如图3、图4所示，RIR包含时间上连续的三个部分：直达声、早期反射声和晚期混响。

而本申请实施例中的目标类型音频中包含混响音频对应的声源的直达声和早期反射声，具体可以为直达声在内的100ms左右早期反射，在获取样本数据时，通过目标类型音频和混响音频确定混响音频对应的时频掩蔽信息，因而，在采用时频掩蔽信息对待测试混响音频进行混响抑制时，可以保留早期反射声，抑制中期反射声和晚期混响，使得得到的目标音频更平滑和自然。

S23，根据目标时频掩蔽信息处理待测试音频，得到目标音频。

具体地，通过目标时频掩蔽信息对待测试音频进行掩蔽处理，去除待测试音频中的中期反射声和晚期混响，得到仅包含直达声和早期反射声的目标音频。

由于输入目标模型的是待测试音频的特征向量，待测试音频的特征向量是频域特征，输出目标模型的时频掩蔽信息为频域信息，可选地，在本发明实施例的音频处理方法中，根据目标时频掩蔽信息处理待测试音频，得到目标音频包括：采用目标时频掩蔽信息处理待测试音频，得到目标频域信息，并对目标频域信息进行逆傅里叶变换，得到目标音频。

也即，获取待测试音频的时频谱，得到频域信息，在采用目标时频掩蔽信息处理测试音频的时频谱，再将处理后的时频谱通过逆傅里叶变换从频域转换为时域，得到时域信息，即得到用户可以听取并识别的目标音频。例如，在获取待测试音频的特征向量时对待测试音频执行的是傅里叶变换是STFT的情况下，对目标频域信息进行的逆傅里叶变换可以为iSTFT。

可选地，在本发明实施例的音频处理方法中，采用目标时频掩蔽信息处理待测试音频，得到目标频域信息包括：将目标时频掩蔽信息处理与待测试音频对应的时频谱信息相乘，得目标频域信息。

存在空间内包括至少两个采集器的情况，为了提高抑制混响的效果，可选地，在本发明实施例的音频处理方法中，待测试音频为目标空间中至少两个采集器对声源进行采集得到的音频，目标模型用于确定同一声源的至少两个混响音频对应的时频掩蔽信息，获取待测试音频的特征向量包括：分别计算目标空间中每个采集器采集到的音频的特征向量，得到至少两个特征向量；对至少两个特征向量进行拼接，生成待测试音频的特征向量。

具体地，在目标模型的训练阶段，将多个采集器采集到一个声源的多路混响音频的多个特征向量进行拼接，并采用拼接后的特征向量以及对应的时频掩膜作为样本数据。同样的，在测试阶段，将目标空间内多个采集器采集到的多路混响音频的特征向量进行拼接，作为目标模型的输入，经过模型处理得到目标时频掩膜，该目标时频掩膜可以用于抑制多个采集器采集到的混响音频中的混响特征。

在使用目标模型之前，需要进行模型的训练，可选地，在本发明实施例的音频处理方法中，在将待测试音频的特征向量输入目标模型进行处理，得到目标时频掩蔽信息之前，该方法还包括：分别获取不同空间内的声源对应的房间冲击响应特征，并获取房间冲击响应特征中的直达声；根据每个声源发出的语音与对应的房间冲击响应确定声源对应的混响音频，并根据声源发出的语音与早期反射声确定声源对应的目标类型音频；根据每个声源的混响音频以及目标类型音频确定混响音频对应的时频掩蔽信息；将每个混响音频以及混响音频对应的时频掩蔽信息确定为一组样本数据，得到多组样本数据；通过多组样本数据训练预设神经网络模型，生成目标模型。

在一种可选的实施例中，可以先准备16k/48k的采样语音数据，模拟随机大小的房间，在房间内随机设定声源（发出的语音数据为提前准的采样语音数据）和多个接收器（R1,R2…, RM）的位置，并生成采样语音数据在房间内的RIR数据，具体地，可以利用IMAGE方法生成RIR数据。

然后，根据实际需求配置和初始化预设深度网络模型的参数，预设深度网络模型是可以包含线性变换单元、DFSMN和ReLU（Rectified Linear Unit, 线性整流函数）单元，Sigmoid非线性激活函数的深度神经网络模型。

同时，批量生成样本数据，具体地，用采样语音数据和RIR卷积得到混响音频（x1,x2…, xM）；用同样的采样语音数据和RIR的早期反射声卷积得到目标音频（s1, s2…,sM），具体地，早期反射声可以选取直达声和之后50ms或100ms的早期反射部分。然后根据混响音频和目标音频计算混响音频对应的时频掩蔽（time-frequency mask），即为混响音频的期望时频掩蔽，例如phase sensitive mask或者complex ratio mask。需要说明的是，同一声源对应的混响音频可以为多路混响音频，提取每路混响音频的特征向量，具体可以为经过傅里叶变换后的频域特征，对提取的特征向量进行拼接，得到多路混响音频共同的特征向量，并将多路混响音频共同的特征向量和期望时频掩蔽。

进一步的，在得到样本数据后，进行模型的训练，在本实施例中，以样本数据中的期望时频掩蔽作为优化目标，计算损失函数，具体地，计算输出时频掩蔽和期望时频掩蔽之间的均方误差，并利用梯度回传算法调整模型参数，重复以上过程，直到模型在验证集上的损失函数不再显著下降，表明模型已经收敛，根据收敛后的模型参数确定目标模型。

通过本实施例，一方面，选用早期反射声而不是直达声作为模型训练和恢复的目标，可以保证处理后得到的目标音频的听感的自然度和清晰度。另一方面，由于模型中包括深度学习网络单元，可以使得得到训练后的模型具备明显的混响抑制效果，从而有效改善音频的听感质量。再一方面，在仿真空间环境下模拟多个设备拾音采集到的混响音频数据，采用模拟混合数据和少量实际数据训练的基础上对进行模型训练，减少采样成本的同时，训练得到的模型可以改善实际空间中的远距离拾音听感效果。

除了混响部分，环境中还存在噪声部分，为了提高模型的混响抑制效果，可选地，在本发明实施例的音频处理方法中，在根据每个声源的混响音频以及目标类型音频确定混响音频对应的时频掩蔽信息之前，该方法还包括：在声源的混响音频中加入噪声信息，得到处理后的混响音频；根据每个声源的混响音频以及目标类型音频确定混响音频对应的时频掩蔽信息包括：根据处理后的混响音频以及目标类型音频确定混响音频对应的时频掩蔽信息。

在一种可选的实施方式中，在获取样本数据时，将语音库中的采样语音（不包含噪声和混响的语音）与混响特征库中的混响特征以及噪声库中的噪声进行结合，得到混响音频，并将采样语音与混响特征中的早期反射声进行结合，得到目标音频。再根据混响音频和目标音频计算时频掩膜，该时频掩膜可以同时抑制混响和噪声，通过该时频掩膜和混响音频组合，得到样本数据。通过得到的样本数据训练模型，训练得到的模型可以对包含噪声和混响特征的音频进行处理，得到相应的时频掩膜，并通过得到的时频掩膜对待测音频进行处理，达到了同时抑制混响和噪声的效果。

为了使得到的目标音频更自然，可选地，在本发明实施例的音频处理方法中，根据目标时频掩蔽信息处理待测试音频，得到目标音频包括：对目标时频掩蔽信息进行平滑处理，并采用处理后的目标时频掩蔽信息对待测试音频进行处理，得到目标音频；或者采用目标时频掩蔽信息处理待测试音频，得到处理后的音频，并对处理后的音频进行平滑处理，得到目标音频。

具体地，平滑处理可以为时间维度上的平滑处理，可以对模型输出的mask或者mask作用之后的频谱做时间上的平滑处理，可以使得到的目标音频更平滑自然。

实施例2

根据本发明实施例，还提供了一种音频处理方法，如图5所示，该方法包括：

在获取样本数据时，将语音库中的采样语音（不包含噪声和混响的语言）与混响特征库中的混响特征以及噪声库中的噪声进行结合，得到多个混响音频，也即，观测信号1-观测信号M，并将采样语音与混响特征中的早期反射声进行结合，得到目标语音。

进一步的，分别将观测信号和目标语音进行STFT变换，得到观测信号和目标语音的特征向量，将观测信号的特征向量和目标语音的特征向量构成训练集数据，并通过训练集数据对模型进行训练，得到的模型可以对待测试音频的特征向量进行处理，其中，待测试音频可以同时包含混响和噪声，将处理后得到的数据进行iSTFT变换，得到预测信号，该预测信号不包含噪声以及中期反射声、晚期混响，也即，通过本实施例的方法，达到了同时抑制待测音频中的混响和噪声的效果，大大提高了音频的听感质量。

实施例3

根据本发明实施例，还提供了一种音频处理方法，如图6所示，该方法包括：

S61，云服务器接收待测试音频。

S62，云服务器获取待测试音频的特征向量，采用目标模型对待测试音频的特征向量进行处理，得到目标时频掩蔽信息，并根据目标时频掩蔽信息处理待测试音频，得到目标音频，其中，目标模型用于确定混响音频对应的时频掩蔽信息，时频掩蔽信息用于将混响音频处理为目标类型音频，目标类型音频中包含混响音频对应的声源的直达声和早期反射声。

具体地，可以将待测试音频从时域转换到频域，得到待测试音频对应的时频谱，时频谱用于表征频域信息，再从时频谱中获取频域特征向量，并将频域特征向量输入目标模型进行处理。

其中，目标模型可以由多组混响音频及其对应的时频掩蔽信息训练得到，从而使得模型输入待测试混响音频对应的特征变量，即可输出目标时频掩蔽信息，由于时频掩蔽信息可以用于抑制混响音频中的混响特征，采用目标时频掩蔽信息对待测试混响音频进行处理，可以得到目标音频。

需要说明的是，而本申请实施例中的目标类型音频中包含混响音频对应的声源的直达声和早期反射声，通过目标类型音频和混响音频确定混响音频对应的时频掩蔽信息，采用该时频掩蔽信息对待测试混响音频进行混响抑制时，可以保留早期反射声，抑制中期反射声和晚期混响。

S63，云服务器返回目标音频至客户端。

具体地，目标音频中保留了早期反射声，抑制了中期反射声和晚期混响，使得用户的听感平滑而自然。

实施例4

根据本发明实施例，还提供了一种音频处理方法，如图7所示，该方法包括：

S71，采集待测试音频，并在音频播放器播放待测试音频。

具体地，待测试音频可以是拾音器对声源发出的声音进行采集得到的音频，拾音器和声源处于同一目标空间内，目标空间可以为房间，由于房间内的混响现象的存在，待测试音频为混响音频，因而，在音频播放器播放待测试音频，用户无法获得清晰的听感。

S72，在音频播放器播放待测试音频对应的目标音频，其中，目标音频是通过目标时频掩蔽信息对待测试音频进行处理后得到的音频，目标时频掩蔽信息是通过目标模型对待测试音频的特征向量进行处理得到的信息，目标模型用于确定混响音频对应的时频掩蔽信息。

需要说明的是，目标模型可以由多组混响音频及其对应的时频掩蔽信息训练得到，从而使得模型输入待测试混响音频对应的特征变量，可以得到目标类型音频，本申请实施例中的目标类型音频中包含混响音频对应的声源的直达声和早期反射声，通过目标类型音频和混响音频确定混响音频对应的时频掩蔽信息，采用该时频掩蔽信息对待测试混响音频进行混响抑制时，可以保留早期反射声，抑制中期反射声和晚期混响。

在音频播放器播放待测试音频对应的目标音频时，由于目标音频中保留了早期反射声，抑制了中期反射声和晚期混响，使得用户的听感平滑而自然。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例5

根据本发明实施例，还提供了一种音频处理方法，如图8所示，该方法包括：

S81，通过至少两个采集器采集教学空间内产生的音频，得到第一音频。

具体地，教学空间可以为远程课堂的线下教室，教室内分布两个或两个以上的采集器，第一音频，也即教学空间内产生的音频，可以为老师讲课或课堂上的学生作答时产生的声音，也可以为教学空间内的多媒体设备产生的声音，由于房间内的混响现象的存在，第一音频为混响音频。

S82，获取第一音频的特征向量，并将第一音频的特征向量输入目标模型进行处理，得到目标时频掩蔽信息，其中，目标模型用于确定混响音频对应的时频掩蔽信息，时频掩蔽信息用于将混响音频处理为目标类型音频，目标类型音频中包含混响音频对应的声源的直达声和早期反射声。

具体地，可以将第一音频从时域转换到频域，得到第一音频对应的时频谱，时频谱用于表征频域信息，再从时频谱中获取频域特征向量，并将频域特征向量输入目标模型进行处理。

其中，目标模型可以由多组混响音频及其对应的时频掩蔽信息训练得到，从而使得模型输入第一音频对应的特征变量，即可输出目标时频掩蔽信息，由于频掩蔽信息可以用于抑制混响音频中的混响特征，采用目标时频掩蔽信息对第一音频进行处理，可以得到第二音频。

S83，根据目标时频掩蔽信息处理第一音频，得到第二音频。

需要说明的是，而本申请实施例中的目标类型音频中包含混响音频对应的声源的直达声和早期反射声，通过目标类型音频和混响音频确定混响音频对应的时频掩蔽信息，采用该时频掩蔽信息对第一音频进行混响抑制，得到的第二音频可以保留早期反射声，抑制中期反射声和晚期混响。

S84，将第二音频发送至教学空间所对应的远端课堂。

具体地，将第二音频发送至教学空间所对应的远端课堂，并在远端课堂播放第二音频，由于第二音频中保留了早期反射声，抑制中期反射声和晚期混响，相对于在远端课堂播放第一音频，可以提高远端课堂的学员对音频内容的可懂度。

实施例6

根据本发明实施例，还提供了一种用于实施上述音频处理方法的装置，如图9所示，该装置包括：

第一获取单元91，用于获取待测试音频的特征向量。

第一处理单元92，用于将待测试音频的特征向量输入目标模型进行处理，得到目标时频掩蔽信息，其中，目标模型用于确定混响音频对应的时频掩蔽信息，时频掩蔽信息用于将混响音频处理为目标类型音频，目标类型音频中包含混响音频对应的声源的直达声和早期反射声。

第二处理单元93，用于根据目标时频掩蔽信息处理待测试音频，得到目标音频。

此处需要说明的是，上述第一获取单元91、第一处理单元92和第二处理单元93对应于实施例1中的步骤S21、步骤S22和步骤S22，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

可选地，在本发明实施例的音频处理装置中，待测试音频为目标空间中至少两个采集器对声源进行采集得到的音频，目标模型用于确定同一声源的至少两个混响音频对应的时频掩蔽信息，第一获取单元91包括：计算模块，用于分别计算目标空间中每个采集器采集到的音频的特征向量，得到至少两个特征向量；拼接模块，用于对至少两个特征向量进行拼接，生成待测试音频的特征向量。

可选地，在本发明实施例的音频处理装置中，该装置还包括：第二获取单元，用于在将待测试音频的特征向量输入目标模型进行处理，得到目标时频掩蔽信息之前，分别获取不同空间内的声源对应的房间冲击响应特征，并获取房间冲击响应特征中的直达声；第一确定单元，用于根据每个声源发出的语音与对应的房间冲击响应特征确定声源对应的混响音频，并根据声源发出的语音与早期反射声确定声源对应的目标类型音频；第二确定单元，用于根据每个声源的混响音频以及目标类型音频确定混响音频对应的时频掩蔽信息；第三确定单元，用于将每个混响音频以及混响音频对应的时频掩蔽信息确定为一组样本数据，得到多组样本数据；模型生成单元，用于通过多组样本数据训练预设神经网络模型，生成目标模型。

可选地，在本发明实施例的音频处理装置中，该装置还包括：音频处理单元，用于在根据每个声源的混响音频以及目标类型音频确定混响音频对应的时频掩蔽信息之前，在声源的混响音频中加入噪声信息，得到处理后的混响音频；第四确定单元，用于根据每个声源的混响音频以及目标类型音频确定混响音频对应的时频掩蔽信息包括：第五确定单元，用于根据处理后的混响音频以及目标类型音频确定混响音频对应的时频掩蔽信息。

可选地，在本发明实施例的音频处理装置中，第一获取单元91包括：第一处理模块，用于对待测试音频进行傅里叶变换，得到待测试音频的频域信息，从频域信息中获取待测试音频的特征向量；第二处理模块，用于根据目标时频掩蔽信息处理待测试音频，得到目标音频包括：第三处理模块，用于采用目标时频掩蔽信息处理待测试音频，得到目标频域信息，并对目标频域信息进行逆傅里叶变换，得到目标音频。

可选地，在本发明实施例的音频处理装置中，第三处理模块还用于将目标时频掩蔽信息处理与待测试音频对应的时频谱信息相乘，得目标频域信息。

可选地，在本发明实施例的音频处理装置中，第二处理模块包括：第一处理子模块，用于对目标时频掩蔽信息进行平滑处理，并采用处理后的目标时频掩蔽信息对待测试音频进行处理，得到目标音频；或者第二处理子模块，用于采用目标时频掩蔽信息处理待测试音频，得到处理后的音频，并对处理后的音频进行平滑处理，得到目标音频。

实施例7

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的音频处理方法中以下步骤的程序代码：获取待测试音频的特征向量；将待测试音频的特征向量输入目标模型进行处理，得到目标时频掩蔽信息，其中，目标模型用于确定混响音频对应的时频掩蔽信息，时频掩蔽信息用于将混响音频处理为目标类型音频，目标类型音频中包含混响音频对应的声源的直达声和早期反射声；根据目标时频掩蔽信息处理待测试音频，得到目标音频。

可选地，图10是根据本发明实施例的一种计算机终端的结构框图。如图10所示，该计算机计算机终端10可以包括：一个或多个（图中仅示出一个）处理器、存储器、以及传输装置。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的音频处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的音频处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取待测试音频的特征向量；将待测试音频的特征向量输入目标模型进行处理，得到目标时频掩蔽信息，其中，目标模型用于确定混响音频对应的时频掩蔽信息，时频掩蔽信息用于将混响音频处理为目标类型音频，目标类型音频中包含混响音频对应的声源的直达声和早期反射声；根据目标时频掩蔽信息处理待测试音频，得到目标音频。

采用本发明实施例，提供了一种计算机终端。通过执行获取待测试音频的特征向量；将待测试音频的特征向量输入目标模型进行处理，得到目标时频掩蔽信息，其中，目标模型用于确定混响音频对应的时频掩蔽信息，时频掩蔽信息用于将混响音频处理为目标类型音频，目标类型音频中包含混响音频对应的声源的直达声和早期反射声；根据目标时频掩蔽信息处理待测试音频，得到目标音频的步骤，达到了抑制待测试音频中的混响的目的，从而实现了提高拾音设备采集到的音频的清晰度的技术效果，进而解决了由于空间内的混响现象的存在，导致拾音设备采集到的音频的清晰度低的技术问题。

本领域普通技术人员可以理解，图10所示的结构仅为示意，计算机终端也可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌声电脑以及移动互联网设备（MobileInternet Devices，MID）、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图10中所示更多或者更少的组件（如网络接口、显示装置等），或者具有与图10所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（RandomAccess Memory，RAM）、磁盘或光盘等。

实施例8

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的音频处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取待测试音频的特征向量；将待测试音频的特征向量输入目标模型进行处理，得到目标时频掩蔽信息，其中，目标模型用于确定混响音频对应的时频掩蔽信息，时频掩蔽信息用于将混响音频处理为目标类型音频，目标类型音频中包含混响音频对应的声源的直达声和早期反射声；根据目标时频掩蔽信息处理待测试音频，得到目标音频。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频处理方法，其特征在于，包括：

获取待测试音频的特征向量；

将所述待测试音频的特征向量输入目标模型进行处理，得到目标时频掩蔽信息，其中，所述目标模型用于确定混响音频对应的时频掩蔽信息，所述时频掩蔽信息用于将所述混响音频处理为目标类型音频，所述目标类型音频中包含所述混响音频对应的声源的直达声和早期反射声；

根据所述目标时频掩蔽信息处理所述待测试音频，得到目标音频；

在所述将所述待测试音频的特征向量输入目标模型进行处理，得到目标时频掩蔽信息之前，所述方法还包括：

分别获取不同空间内的声源对应的房间冲击响应特征，并获取所述房间冲击响应特征中的直达声；

根据每个声源发出的语音与对应的所述房间冲击响应特征确定所述声源对应的混响音频，并根据所述声源发出的语音与所述早期反射声确定所述声源对应的目标类型音频；

根据每个声源的所述混响音频以及所述目标类型音频确定所述混响音频对应的时频掩蔽信息；

将每个所述混响音频以及所述混响音频对应的时频掩蔽信息确定为一组样本数据，得到多组样本数据；

通过所述多组样本数据训练预设神经网络模型，生成所述目标模型。

2.根据权利要求1所述的音频处理方法，其特征在于，所述待测试音频为目标空间中至少两个采集器对声源进行采集得到的音频，所述目标模型用于确定同一声源的至少两个混响音频对应的时频掩蔽信息，所述获取待测试音频的特征向量包括：

分别计算所述目标空间中每个采集器采集到的音频的特征向量，得到至少两个特征向量；

对所述至少两个特征向量进行拼接，生成所述待测试音频的特征向量。

3.根据权利要求1所述的音频处理方法，其特征在于，在所述根据每个声源的所述混响音频以及所述目标类型音频确定所述混响音频对应的时频掩蔽信息之前，所述方法还包括：

在所述声源的所述混响音频中加入噪声信息，得到处理后的混响音频；

所述根据每个声源的所述混响音频以及所述目标类型音频确定所述混响音频对应的时频掩蔽信息包括：

根据所述处理后的混响音频以及所述目标类型音频确定所述混响音频对应的时频掩蔽信息。

4.根据权利要求1所述的音频处理方法，其特征在于，所述获取待测试音频的特征向量包括：

对所述待测试音频进行傅里叶变换，得到所述待测试音频的频域信息，从所述频域信息中获取所述待测试音频的特征向量；

所述根据所述目标时频掩蔽信息处理所述待测试音频，得到目标音频包括：

采用所述目标时频掩蔽信息处理所述待测试音频，得到目标频域信息，并对所述目标频域信息进行逆傅里叶变换，得到所述目标音频。

5.根据权利要求4所述的音频处理方法，其特征在于，所述采用所述目标时频掩蔽信息处理所述待测试音频，得到目标频域信息包括：

将所述目标时频掩蔽信息处理与所述待测试音频对应的时频谱信息相乘，得所述目标频域信息。

6.根据权利要求1所述的音频处理方法，其特征在于，所述根据所述目标时频掩蔽信息处理所述待测试音频，得到目标音频包括：

对所述目标时频掩蔽信息进行平滑处理，并采用处理后的目标时频掩蔽信息对所述待测试音频进行处理，得到所述目标音频；或者

采用所述目标时频掩蔽信息处理所述待测试音频，得到处理后的音频，并对所述处理后的音频进行平滑处理，得到所述目标音频。

7.一种音频处理方法，其特征在于，包括：

云服务器接收待测试音频；

所述云服务器获取所述待测试音频的特征向量，采用目标模型对所述待测试音频的特征向量进行处理，得到目标时频掩蔽信息，并根据所述目标时频掩蔽信息处理所述待测试音频，得到目标音频，其中，所述目标模型用于确定混响音频对应的时频掩蔽信息，所述时频掩蔽信息用于将所述混响音频处理为目标类型音频，所述目标类型音频中包含所述混响音频对应的声源的直达声和早期反射声；

所述云服务器返回所述目标音频至客户端；

其中，所述目标模型通过以下方式确定：分别获取不同空间内的声源对应的房间冲击响应特征，并获取所述房间冲击响应特征中的直达声；根据每个声源发出的语音与对应的所述房间冲击响应特征确定所述声源对应的混响音频，并根据所述声源发出的语音与所述早期反射声确定所述声源对应的目标类型音频；根据每个声源的所述混响音频以及所述目标类型音频确定所述混响音频对应的时频掩蔽信息；将每个所述混响音频以及所述混响音频对应的时频掩蔽信息确定为一组样本数据，得到多组样本数据；通过所述多组样本数据训练预设神经网络模型，生成所述目标模型。

8.一种音频处理方法，其特征在于，包括：

采集待测试音频，并在音频播放器播放所述待测试音频；

在所述音频播放器播放所述待测试音频对应的目标音频，其中，所述目标音频是通过目标时频掩蔽信息对所述待测试音频进行处理后得到的音频，所述目标时频掩蔽信息是通过目标模型对所述待测试音频的特征向量进行处理得到的信息，所述目标模型用于确定混响音频对应的时频掩蔽信息；

其中，所述目标模型通过以下方式确定：分别获取不同空间内的声源对应的房间冲击响应特征，并获取所述房间冲击响应特征中的直达声；根据每个声源发出的语音与对应的所述房间冲击响应特征确定所述声源对应的混响音频，并根据所述声源发出的语音与早期反射声确定所述声源对应的目标类型音频；根据每个声源的所述混响音频以及所述目标类型音频确定所述混响音频对应的时频掩蔽信息；将每个所述混响音频以及所述混响音频对应的时频掩蔽信息确定为一组样本数据，得到多组样本数据；通过所述多组样本数据训练预设神经网络模型，生成所述目标模型。

9.一种音频处理方法，其特征在于，包括：

通过至少两个采集器采集教学空间内产生的音频，得到第一音频；

获取所述第一音频的特征向量，并将所述第一音频的特征向量输入目标模型进行处理，得到目标时频掩蔽信息，其中，所述目标模型用于确定混响音频对应的时频掩蔽信息，所述时频掩蔽信息用于将所述混响音频处理为目标类型音频，所述目标类型音频中包含所述混响音频对应的声源的直达声和早期反射声；

根据所述目标时频掩蔽信息处理所述第一音频，得到第二音频；

将所述第二音频发送至所述教学空间所对应的远端课堂；

10.一种音频处理装置，其特征在于，包括：

第一获取单元，用于获取待测试音频的特征向量；

第一处理单元，用于将所述待测试音频的特征向量输入目标模型进行处理，得到目标时频掩蔽信息，其中，所述目标模型用于确定混响音频对应的时频掩蔽信息，所述时频掩蔽信息用于将所述混响音频处理为目标类型音频，所述目标类型音频中包含所述混响音频对应的声源的直达声和早期反射声；

第二处理单元，用于根据所述目标时频掩蔽信息处理所述待测试音频，得到目标音频；

第二获取单元，用于分别获取不同空间内的声源对应的房间冲击响应特征，并获取所述房间冲击响应特征中的直达声；第一确定单元，用于根据每个声源发出的语音与对应的所述房间冲击响应特征确定所述声源对应的混响音频，并根据所述声源发出的语音与所述早期反射声确定所述声源对应的目标类型音频；第二确定单元，用于根据每个声源的所述混响音频以及所述目标类型音频确定所述混响音频对应的时频掩蔽信息；第三确定单元，用于将每个所述混响音频以及所述混响音频对应的时频掩蔽信息确定为一组样本数据，得到多组样本数据；通过所述多组样本数据训练预设神经网络模型，生成所述目标模型。

11.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的音频处理方法。