CN112735382B

CN112735382B - 音频数据处理方法、装置、电子设备及可读存储介质

Info

Publication number: CN112735382B
Application number: CN202011542818.8A
Authority: CN
Inventors: 陈孝良; 冯大航; 吴俊�; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2024-02-02
Anticipated expiration: 2040-12-22
Also published as: CN112735382A

Abstract

本申请提供了一种音频数据处理方法、装置、电子设备及可读存储介质，属于语音处理技术领域。本申请通过对多个音频数据的音频特征进行拼接得到的第一音频特征进行分类处理，以得到分类标签，由于分类标签能够指示第一音频特征中的哪些音频特征是距离声源最近的麦克风组件采集到的音频数据对应的音频特征，进而将分类标签所指示的目标音频特征，从第一音频特征中分离出来，以便基于分离出的目标音频特征来生成目标音频数据，使得目标音频数据是距离声源最近的麦克风组件采集到的音频数据，实现将目标音频数据从采集到的音频数据中分离出来，提高了音频数据分离的准确性。

Description

音频数据处理方法、装置、电子设备及可读存储介质

技术领域

本申请涉及语音处理技术领域，特别涉及一种音频数据处理方法、装置、电子设备及可读存储介质。

背景技术

在车载系统中，使用语音控制代替传统的触摸式控制，能够有效提升行车安全性以及便捷性。但在语音控制过程中，当多个人同时说话时，多个说话人的音频数据之间会互相干扰，进而对控制指令的识别造成影响，因而需要对车载系统的麦克风阵列采集到的音频数据进行分离，以便从麦克风阵列采集到的音频数据中，分离出与每个麦克风组件距离最近的人发出的音频数据，进而根据分离出的音频数据识别出相应的控制指令。

目前在对音频数据进行分离时，主要是采用波束合成的方法，来对音频数据进行分离，但这种波束合成的方法的准确性较低。

发明内容

本申请实施例提供了一种音频数据处理方法、装置、电子设备及可读存储介质，能够提高音频数据分离的准确性。本申请的技术方案如下：

一方面，提供了一种音频数据处理方法，该方法包括：

对多个音频数据的音频特征进行拼接，得到第一音频特征，该多个音频数据由同一设备上的多个麦克风组件采集得到；

对该第一音频特征进行分类处理，得到分类标签，该分类标签用于指示该第一音频特征中的目标音频特征，该目标音频特征为该多个麦克风组件中距离声源最近的麦克风组件对应的音频特征；

基于该分类标签，从该第一音频特征中分离出该目标音频特征；

基于该目标音频特征，生成目标音频数据。

在一种可能的实现方式中，该对该第一音频特征进行分类处理，得到分类标签包括：

将该第一音频特征输入音频分类模型，通过该音频分类模型对该第一音频特征进行分类处理，得到该分类标签。

在一种可能的实现方式中，该音频分类模型的训练过程包括：

获取多个第一样本音频数据对应的多个第一样本音频特征，以及该多个第一样本音频特征对应的样本分类标签，该多个第一样本音频数据由同一设备上的多个麦克风组件采集得到，该样本分类标签用于指示该多个第一样本音频特征中的目标样本音频特征，该目标样本音频特征为该多个麦克风组件中距离声源最近的麦克风组件对应的第一样本音频特征；

基于该多个第一样本音频特征和该多个第一样本音频特征对应的样本分类标签，训练该音频分类模型。

在一种可能的实现方式中，该对多个音频数据的音频特征进行拼接，得到第一音频特征之前，该方法还包括：

对该多个音频数据进行特征提取，得到该多个音频数据的音频特征。

在一种可能的实现方式中，该对多个音频数据的音频特征进行拼接，得到第一音频特征包括：

对该多个音频数据的音频特征进行拼接，得到拼接后的音频特征；

对该拼接后的音频特征进行压缩，得到该第一音频特征。

在一种可能的实现方式中，该设备为车辆，该多个麦克风组件包括第一麦克风组件、第二麦克风组件、第三麦克风组件、第四麦克风组件和第五麦克风组件，该第一麦克风组件和该第二麦克风组件分别位于该车辆的前风挡玻璃两侧的立柱与前风挡玻璃上部的横梁的连接处，该第三麦克风组件和该第四麦克风组件分别位于该车辆的后风挡玻璃两侧的立柱与后风挡玻璃上部的横梁的连接处，该第五麦克风组件位于该第三麦克风组件和该第四麦克风组件的连线中点对应的顶盖处。

在一种可能的实现方式中，该基于该目标音频特征，生成目标音频数据包括：

将该目标音频特征输入语音分离模型，通过该语音分离模型，输出该目标音频特征的掩模；

基于该目标音频特征的掩模，对该多个音频数据中该目标音频特征对应的音频数据进行语音分离，得到该目标音频数据。

在一种可能的实现方式中，该语音分离模型的训练过程包括：

获取多个第二样本音频数据对应的多个第二样本音频特征，以及该多个第二样本音频特征对应的样本掩模；

基于该多个第二样本音频特征和该多个第二样本音频特征对应的样本掩模，训练该语音分离模型。

一方面，提供了一种音频数据处理装置，其特征在于，该装置包括：

拼接模块，用于对多个音频数据的音频特征进行拼接，得到第一音频特征，该多个音频数据由同一设备上的多个麦克风组件采集得到；

分类模块，用于对该第一音频特征进行分类处理，得到分类标签，该分类标签用于指示该第一音频特征中的目标音频特征，该目标音频特征为该多个麦克风组件中距离声源最近的麦克风组件对应的音频特征；

分离模块，用于基于该分类标签，从该第一音频特征中分离出该目标音频特征；

生成模块，用于基于该目标音频特征，生成目标音频数据。

在一种可能的实现方式中，该分类模块，用于将该第一音频特征输入音频分类模型，通过该音频分类模型对该第一音频特征进行分类处理，得到该分类标签。

在一种可能的实现方式中，该装置还包括：

特征提取模块，用于对该多个音频数据进行特征提取，得到该多个音频数据的音频特征。

在一种可能的实现方式中，该拼接模块，用于对该多个音频数据的音频特征进行拼接，得到拼接后的音频特征；对该拼接后的音频特征进行压缩，得到该第一音频特征。

在一种可能的实现方式中，该生成模块，用于将该目标音频特征输入语音分离模型，通过该语音分离模型，输出该目标音频特征的掩模；基于该目标音频特征的掩模，对该多个音频数据中该目标音频特征对应的音频数据进行语音分离，得到该目标音频数据。

一方面，提供了一种电子设备，该电子设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该程序代码由该一个或多个处理器加载并执行以实现该音频数据处理方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该程序代码由处理器加载并执行以实现该音频数据处理方法所执行的操作。

一方面，提供了一种计算机程序，该计算机程序由处理器加载并执行以实现该音频数据处理方法所执行的操作。

本申请提供的方案，通过对多个音频数据的音频特征进行拼接得到的第一音频特征进行分类处理，以得到分类标签，由于分类标签能够指示第一音频特征中的哪些音频特征是距离声源最近的麦克风组件采集到的音频数据对应的音频特征，进而将分类标签所指示的目标音频特征，从第一音频特征中分离出来，以便基于分离出的目标音频特征来生成目标音频数据，使得目标音频数据是距离声源最近的麦克风组件采集到的音频数据，实现将目标音频数据从采集到的音频数据中分离出来，提高了音频数据分离的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频数据处理方法的实施环境示意图；

图2是本申请实施例提供的一种音频数据处理方法的流程图；

图3是本申请实施例提供的一种音频数据处理方法的流程图；

图4是本申请实施例提供的一种麦克风组件的分布方式示意图；

图5是本申请实施例提供的一种音频数据处理方法的流程图；

图6是本申请实施例提供的一种音频数据处理装置的结构示意图；

图7是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种音频数据处理方法的实施环境示意图，参见图1，该实施环境包括：麦克风组件101和电子设备102。

麦克风组件101为多个麦克风组件，可选地，各个麦克风组件为全指向性麦克风组件、双指向性麦克风组件、单指向性麦克风组件等，本申请实施例对麦克风组件的具体类型不加以限定。麦克风组件101采集环境中的声音，如人的说话声，进而基于采集到的声音，生成音频数据，以得到多个音频数据。

电子设备102为车辆、智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一种。电子设备基于麦克风组件101采集到的音频数据，从多个音频数据中，分离出距离声源最近的麦克风组件采集到的目标音频数据。

可选地，麦克风组件101内置或外接于电子设备102，本申请实施例对此不加以限定。电子设备101可以泛指多个电子设备中的一个，本实施例仅以电子设备101来举例说明。本领域技术人员可以知晓，上述电子设备的数量可以更多或更少。比如上述电子设备可以仅为一个，或者上述电子设备为几十个或几百个，或者更多数量，本申请实施例对电子设备的数量和设备类型不加以限定。

图2是本申请实施例提供的一种音频数据处理方法的流程图，参见图2，该方法包括：

201、电子设备对多个音频数据的音频特征进行拼接，得到第一音频特征，该多个音频数据由同一设备上的多个麦克风组件采集得到。

202、电子设备对该第一音频特征进行分类处理，得到分类标签，该分类标签用于指示该第一音频特征中的目标音频特征，该目标音频特征为该多个麦克风组件中距离声源最近的麦克风组件对应的音频特征。

203、电子设备基于该分类标签，从该第一音频特征中分离出该目标音频特征。

204、电子设备基于该目标音频特征，生成目标音频数据。

本申请实施例提供的方案，通过对多个音频数据的音频特征进行拼接得到的第一音频特征进行分类处理，以得到分类标签，由于分类标签能够指示第一音频特征中的哪些音频特征是距离声源最近的麦克风组件采集到的音频数据对应的音频特征，进而将分类标签所指示的目标音频特征，从第一音频特征中分离出来，以便基于分离出的目标音频特征来生成目标音频数据，使得目标音频数据是距离声源最近的麦克风组件采集到的音频数据，实现将目标音频数据从采集到的音频数据中分离出来，提高了音频数据分离的准确性。

对该拼接后的音频特征进行压缩，得到该第一音频特征。

图3是本申请实施例提供的一种音频数据处理方法的流程图，参见图3，该方法包括：

301、电子设备获取多个音频数据，该多个音频数据由同一设备上的多个麦克风组件采集得到。

在一种可能的实现方式中，该设备为车辆，同一设备上的多个麦克风组件为同一车辆中的多个麦克风组件。

其中，麦克风组件的数量为任意取值，本申请实施例对麦克风组件的数量不加以限定。在一种可能的实现方式中，麦克风组件的数量为5个，分别为第一麦克风组件、第二麦克风组件、第三麦克风组件、第四麦克风组件和第五麦克风组件，该第一麦克风组件和该第二麦克风组件分别位于该车辆的前风挡玻璃两侧的立柱与前风挡玻璃上部的横梁的连接处，该第三麦克风组件和该第四麦克风组件分别位于该车辆的后风挡玻璃两侧的立柱与后风挡玻璃上部的横梁的连接处，该第五麦克风组件位于该第三麦克风组件和该第四麦克风组件的连线中点对应的顶盖处。

上述第一麦克风组件至第五麦克风组件在车辆中的位置参见图4，图4是本申请实施例提供的一种麦克风组件的分布方式示意图，第一麦克风组件至第五麦克风组件在如图4所示的分布方式下，形成分布式麦克风阵列，每个麦克风组件对应于车辆内的一个位置，各个麦克风组件均能对临近位置有较好的收声效果，从而提高对车辆中声音的采集效果。

需要说明的是，上述仅为一种示例性的麦克风组件分布方式，在更多可能的实现方式中，采用其他分布方式，来设置各个麦克风组件的位置，本申请实施例对此不加以限定。

302、电子设备对该多个音频数据进行特征提取，得到该多个音频数据的音频特征。

需要说明的是，该音频特征为频域特征，或者，该音频特征为能量谱特征、对数谱特征等基于频域特征衍生出来的特征，可选地，该音频特征为其他类型，本申请实施例对此不加以限定。

以该音频特征为频域特征为例，在一种可能的实现方式中，对于已获取的多个音频数据，电子设备对每个音频数据进行傅里叶变换，得到每个音频数据在频域上的幅值信息，也即是，得到每个音频数据中各个频率对应的振幅，进而得到每个音频数据对应的频域特征，也即是，得到多个频域特征。

在更多可能的实现方式中，若该音频特征为能量谱特征，则电子设备在确定出每个音频数据的频域特征后，对频域特征中各个频率对应的振幅取平方，即可得到每个音频数据中各个频率对应的能量值，也即是，得到每个音频数据的能量谱特征。若该音频特征为对数谱特征，则电子设备在确定出每个音频数据的能量谱特征后，对各个音频数据的能量谱特征取对数，得到每个音频数据的对数谱特征。

需要说明的是，上述仅为几种示例性的确定音频数据的音频特征的方式，在更多可能的实现方式中，采用其他方式来进行音频特征的确定，本申请实施例对此不加以限定。

303、电子设备对多个音频数据的音频特征进行拼接，得到第一音频特征。

在一种可能的实现方式中，电子设备获取到各个音频数据的音频特征后，将各个音频数据的音频特征首尾相接，以实现对各个音频数据的音频特征的拼接，进而得到该第一音频特征。

仍以麦克风组件的数量为5个，分别为第一麦克风组件、第二麦克风组件、第三麦克风组件、第四麦克风组件和第五麦克风组件为例，则电子设备获取到5 个音频数据，分别记为第一音频数据、第二音频数据、第三音频数据、第四音频数据和第五音频数据，电子设备获取到这5个音频数据的音频特征后，将第一音频数据的音频特征的结束位置，与第二音频数据的音频特征的起始位置相接，再将第二音频数据的音频特征的结束位置，与第三音频数据的音频特征的起始位置相接，以此类推，以实现对这5个音频数据的音频特征的拼接，得到第一音频特征。

可选地，电子设备在对多个音频特征进行拼接时，记录相邻音频特征之间的拼接位置，例如，记录前一个音频特征的结束位置，或者，记录后一个音频特征的起始位置，以便后续进行目标音频特征的分离。

在一种可能的实现方式中，电子设备对该多个音频数据的音频特征进行拼接，得到拼接后的音频特征后，对该拼接后的音频特征进行压缩，得到该第一音频特征。对拼接后的音频特征进行特征压缩得到的该第一音频特征为滤波器组(Filterbank，Fbank)特征、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)等，可选地，对拼接后的音频特征进行特征压缩得到的该第一音频特征为其他类型的特征，本申请实施例对此不加以限定。

若该第一音频特征为Fbank特征，则电子设备将各个音频数据的能量谱特征通过N个梅尔(Mel)滤波器组，一个滤波器组可以包括M个三角形滤波器，进而基于各个滤波器组的输出结果，确定各个音频数据的Fbank特征，作为第一音频特征。其中，N和M均为正整数，本申请实施例对N和M的具体取值不加以限定。若该第一音频特征为MFCC，则电子设备在确定出每个音频数据的对数谱特征后，电子设备对每个音频数据的各个对数能量进行离散余弦变换，得到梅尔频率倒谱系数，作为第一音频特征。

需要说明的是，上述仅为几种示例性的对拼接后的音频特征进行压缩的方式，在更多可能的实现方式中，采用其他方式来进行音频特征的压缩，以得到第一音频特征，本申请实施例对此不加以限定。

通过对拼接后的音频特征压缩得到第一音频特征，能够减小第一音频特征的维度，进而减少电子设备的计算量，提高音频数据的处理速度。

304、电子设备对该第一音频特征进行分类处理，得到分类标签，该分类标签用于指示该第一音频特征中的目标音频特征，该目标音频特征为该多个麦克风组件中距离声源最近的麦克风组件对应的音频特征。

在一种可能的实现方式中，电子设备将该第一音频特征输入音频分类模型，通过该音频分类模型对该第一音频特征进行分类处理，得到该分类标签。

其中，该音频分类模型为卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、长短期记忆神经网络 (LongShort-Term Memory，LSTM)、双向长短时记忆神经网络(Bidirectional Long Short-TermMemory，BLSTM)和门循环单元神经网络(Gate Recurrent Unit， GRU)等，可选地，该音频分类模型为其他类型的神经网络，本申请实施例对此不加以限定。

以该音频分类模型为CNN为例，电子设备将该第一音频特征输入作为音频分类模型的CNN，通过CNN的卷积层，提取该第一音频特征的卷积特征，通过CNN的池化层，对提取出的卷积特征进行降维处理，通过CNN的全连接层，基于降维处理后的卷积特征，确定第一音频特征的分类标签。

通过该音频分类模型，能够从采集到的多个音频数据中区分出待分离的音频数据，也即是，距离声源最近的麦克风组件采集到的音频数据。可选地，若第一音频特征为拼接后的音频特征经过压缩得到的音频特征，则第一音频特征的维度较小，将第一音频特征输入音频分类模型，使得音频分类模型的输入维度较小，而且仅需输出分类标签这一个维度的输出结果，以保证音频分类模型较小，便于训练和使用。

需要说明的是，上述仅为一种示例性的用于确定第一音频特征的分类标签的方式，在更多可能的实现方式中，采用其他方式来进行第一音频特征的分类标签的确定，本申请实施例对此不加以限定。

其中，该音频分类模型通过预先进行训练得到。该音频分类模型的训练过程如下：服务器获取多个第一样本音频数据对应的多个第一样本音频特征，以及该多个第一样本音频特征对应的样本分类标签，该多个第一样本音频数据由同一设备上的多个麦克风组件采集得到，该样本分类标签用于指示该多个第一样本音频特征中的目标样本音频特征，该目标样本音频特征为该多个麦克风组件中距离声源最近的麦克风组件对应的第一样本音频特征，基于该多个第一样本音频特征和该多个第一样本音频特征对应的样本分类标签，训练该音频分类模型。

在训练音频分类模型时，服务器将多个第一样本音频数据对应的多个第一样本音频特征中的第一个第一样本音频特征输入初始音频分类模型，通过初始音频分类模型确定出第一个第一样本音频特征的分类标签，进而基于确定出的第一个第一样本音频特征的分类标签，以及第一个第一样本音频特征的样本分类标签，确定初始音频分类模型的损失函数值，根据损失函数值，利用梯度修正网络，对初始音频分类模型的参数进行调整，得到经过第一次参数调整的音频分类模型。再将多个第一样本音频数据对应的多个第一样本音频特征中的第二个第一样本音频特征输入经过第一次参数调整的音频分类模型，通过经过第一次参数调整的音频分类模型确定出第二个第一样本音频特征的分类标签，进而基于确定出的第二个第一样本音频特征的分类标签，以及第二个第一样本音频特征的样本分类标签，确定经过第一次参数调整的音频分类模型的损失函数值，根据损失函数值，利用梯度修正网络，对经过第一次参数调整的音频分类模型的参数继续进行调整。以此类推，最终得到满足第一目标条件的音频分类模型。该第一目标条件为音频分类模型确定出的分类标签的准确性满足迭代截止条件，或者，音频分类模型的损失函数值满足迭代截止条件，或者，迭代次数达到预设次数，本申请实施例对具体采用哪种条件不加以限定。

需要说明的是，上述模型训练过程，是以服务器训练音频分类模型为例来进行说明的，训练完成后，服务器将训练得到的音频分类模型下发给电子设备，以便电子设备基于获取到的音频分类模型，进行第一音频特征的分类处理。在更多可能的实现方式中，电子设备获取多个第一样本音频数据对应的多个第一样本音频特征，以及该多个第一样本音频特征对应的样本分类标签，基于该多个第一样本音频特征和该多个第一样本音频特征对应的样本分类标签，训练该音频分类模型，本申请实施例对此不加以限定。

305、电子设备基于该分类标签，从该第一音频特征中分离出该目标音频特征。

在一种可能的实现方式中，电子设备将分类标签所指示的目标音频特征的起始位置，与第一音频特征中与目标音频特征相连的前一个音频特征的结束位置分离开，将目标音频特征的结束位置，与第一音频特征中与目标音频特征相连的后一个音频特征的起始位置分离开，从而从该第一音频特征中分离出该目标音频特征。

仍以电子设备获取到第一音频数据、第二音频数据、第三音频数据、第四音频数据和第五音频数据5个音频数据为例，则第一音频特征中依次包括第一音频数据的音频特征、第二音频数据的音频特征、第三音频数据的音频特征、第四音频数据的音频特征和第五音频数据的音频特征，相邻两个音频特征之间首尾相接。若该目标音频特征为第三音频数据的音频特征，则电子设备将第三音频数据的音频特征的起始位置，与第二音频数据的音频特征的结束位置分离开，将第三音频数据的音频特征的结束位置，与第四音频数据的音频特征的起始位置分离开，从而从第一音频特征中分离出第三音频数据的音频特征，也即是，目标音频特征。

可选地，若电子设备在对多个音频特征进行拼接时，记录了相邻音频特征之间的拼接位置，则在从第一音频特征中分离目标音频特征时，基于已经记录的相邻音频特征之间的拼接位置，按照目标音频特征是第几个音频特征，确定该目标音频特征的拼接位置，进而对该目标音频特征进行分离。例如，若电子设备记录的是相邻两个音频特征中前一个音频特征的结束位置，且目标音频特征是第3个音频特征，则在进行目标音频特征的分离时，电子设备确定第2个音频特征的结束位置和第3个音频特征的结束位置，进而从第一音频特征中将第2个音频特征的结束位置到第3个音频特征的结束位置这部分的音频特征分离出来，这部分音频特征即为第3个音频特征；若电子设备记录的是相邻两个音频特征中后一个音频特征的起始位置，且目标音频特征是第3个音频特征，则在进行目标音频特征的分离时，电子设备确定第3个音频特征的起始位置和第4个音频特征的起始位置，进而从第一音频特征中将第3个音频特征的起始位置到第4个音频特征的起始位置这部分的音频特征分离出来，这部分音频特征即为第3个音频特征。

306、电子设备基于该目标音频特征，生成目标音频数据。

在一种可能的实现方式中，电子设备将该目标音频特征输入语音分离模型，通过该语音分离模型，输出该目标音频特征的掩模，基于该目标音频特征的掩模，对该多个音频数据中该目标音频特征对应的音频数据进行语音分离，得到该目标音频数据。

需要说明的是，该语音分离模型为CNN、RNN、LSTM、BLSTM和GRU 等，可选地，该语音分离模型为其他类型的神经网络，本申请实施例对此不加以限定。

以该语音分离模型为CNN为例，电子设备将该目标音频特征输入作为语音分离模型的CNN，通过CNN的卷积层，提取该目标音频特征的卷积特征，通过CNN的池化层，对提取出的卷积特征进行降维处理，通过CNN的全连接层，基于降维处理后的卷积特征，输出该目标音频特征对应的掩模。在基于该目标音频特征的掩模，对该多个音频数据中该目标音频特征对应的音频数据进行语音分离时，电子设备将该目标音频特征对应的掩模与该第三音频数据和第四音频数据进行融合，得到目标音频数据。

其中，在将该目标音频特征对应的掩模与该第三音频数据和第四音频数据进行融合时，耳机获取步骤302中所确定出来的该多个音频数据的音频特征，将该掩模与第三音频数据的音频特征以及第四音频数据的音频特征进行融合，得到融合后的音频特征，基于该融合后的音频特征，生成该目标音频数据。

需要说明的是，在对掩模和音频特征进行融合时，通过对该掩模和音频特征中的各个数值进行对应的乘法运算，即可实现对掩模和音频特征的融合。

例如，若该目标音频特征包括第三音频数据的音频特征和第四音频数据的音频特征连个音频特征，则表明在该设备中同时有两个人在说话，通过将目标音频特征输入语音分离模型，通过语音分离模型即可确定出目标音频特征对应的掩模，在该掩模中，对于第三音频数据对应的掩模，仅包括距离第三麦克风组件最近的声源发出的声音的第三音频数据对应的掩模值为第一数值，仅包括除距离第三麦克风组件最近的声源发出的声音之外的杂音的第三音频数据对应的掩模值为第二数值，包括第三麦克风组件以及其他麦克风组件发出的声音的第三音频数据对应的掩模值为第三数值，对于第四音频数据对应的掩模，仅包括距离第四麦克风组件最近的声源发出的声音的第四音频数据对应的掩模值为第一数值，仅包括除距离第四麦克风组件最近的声源发出的声音的杂音的第四音频数据对应的掩模值为第二数值，包括第四麦克风组件以及其他麦克风组件发出的声音的第四音频数据对应的掩膜值为第三数值，将该掩模与第三音频数据的音频特征和第四音频数据的音频特征进行融合，进而基于融合后的特征即可得到去除杂音后的第三音频数据和第四音频数据，作为目标音频数据，使得目标音频数据中仅包括两个说话人的声音，实现语音分离。

其中，第一数值为1，第二数值为0，第三数值为距离该麦克风组件较近的特征数值占输入特征数值的比例，可选地，第一数值、第二数值和第三数值为其他取值，本申请实施例对此不加以限定。

由于目标音频特征为已经筛选出的距离声源位置最近的麦克风组件采集到的音频数据的音频特征，因此该语音分离模型的输入大大减小，从而减小语音分离模型的计算量，有利于提升系统的实时性。例如，若5个麦克风组件采集到的5个音频数据中，仅有2个音频数据为距离声源位置最近的麦克风组件采集到的音频数据，则仅需将这2个距离声源位置最近的麦克风组件采集到的音频数据输入语音分离模型，语音分离模型计算量就缩小了60％，系统的实时性大大提高。

需要说明的是，上述仅为一种示例性的用于基于目标音频特征生成目标音频数据的方式，在更多可能的实现方式中，采用其他方式来进行目标音频数据的生成，本申请实施例对此不加以限定。

其中，该语音分离模型通过预先进行训练得到。该语音分离模型的训练过程如下：服务器获取多个第二样本音频数据对应的多个第二样本音频特征，以及该多个第二样本音频特征对应的样本掩模，基于该多个第二样本音频特征和该多个第二样本音频特征对应的样本掩模，训练该语音分离模型。

在训练语音分离模型时，服务器将多个第二样本音频数据对应的多个第二样本音频特征中的第一个第二样本音频特征输入初始语音分离模型，通过初始语音分离模型输出第一个第二样本音频特征对应的掩模，进而基于模型输出的掩模，以及第一个第二样本音频数据对应的样本掩模，确定初始语音分离模型的损失函数值，根据损失函数值，利用梯度修正网络，对初始语音分离模型的参数进行调整，得到经过第一次参数调整的语音分离模型。再将多个第二样本音频数据对应的多个第二样本音频特征中的第二个第二样本音频特征输入经过第一次参数调整的语音分离模型，通过经过第一次参数调整的语音分离模型输出第二个第二样本音频特征对应的掩模，进而基于模型输出的掩模，以及第二个第二样本音频特征对应的样本掩模，确定经过第一次参数调整的语音分离模型的损失函数值，根据损失函数值，利用梯度修正网络，对经过第一次参数调整的语音分离模型的参数继续进行调整。以此类推，最终得到满足第二目标条件的语音分离模型。该第二目标条件为语音分离模型输出的掩模的准确性满足迭代截止条件，或者，语音分离模型的损失函数值满足迭代截止条件，或者，迭代次数达到预设次数，本申请实施例对具体采用哪种条件不加以限定。

需要说明的是，上述模型训练过程，是以服务器训练语音分离模型为例来进行说明的，训练完成后，服务器将训练得到的语音分离模型下发给电子设备，以便电子设备基于获取到的语音分离模型，进行第一音频特征的分类处理。在更多可能的实现方式中，电子设备获取多个第二样本音频数据对应的多个第二样本音频特征，以及该多个第二样本音频特征对应的样本掩模，基于该多个第二样本音频特征和该多个第二样本音频特征对应的样本掩模，训练该语音分离模型，本申请实施例对此不加以限定。

上述步骤301至步骤306的过程，参见图5所示的流程图，图5是本申请实施例提供的一种音频数据处理方法的流程图，以麦克风组件的数量为5个为例，电子设备通过这5个麦克风组件获取到5个音频数据，也即是，5通道音频数据，进而对这5通道音频数据进行特征提取及特征拼接，得到拼接后的第一音频特征，也即是输入特征1，对输入特征1进行特征压缩，得到输入特征2，将输入特征2输入音频分类模型，以确定出这5个通道中的待分离通道，也即是，距离声源位置最近的麦克风组件采集的音频数据对应的通道，进而基于确定出的待分离通道，对输入特征1进行特征筛选，以得到目标音频特征，将目标音频特征输入语音分离模型，输出最后的分离结果，也即是目标音频数据，实现音频数据的分离。

本申请实施例提供的方案，通过对多个音频数据的音频特征进行拼接得到的第一音频特征进行分类处理，以得到分类标签，由于分类标签能够指示第一音频特征中的哪些音频特征是距离声源最近的麦克风组件采集到的音频数据对应的音频特征，进而将分类标签所指示的目标音频特征，从第一音频特征中分离出来，以便基于分离出的目标音频特征来生成目标音频数据，使得目标音频数据是距离声源最近的麦克风组件采集到的音频数据，实现将目标音频数据从采集到的音频数据中分离出来，提高了音频数据分离的准确性。通过在车辆中设置5个麦克风组件，并采用分布式的麦克风摆放方式，能够提高车辆内麦克风组件的收声效果，进而结合音频分类模型和语音分离模型，利用深度学习方法进行说话人位置的定位与语音分离，能够实现无盲区的语音分离，而且本申请实施例提供的方案在进行语音分离时，是基于音频数据的细节谱结构信息来进行分离的，提升语音分离性能，提高语音分离效果。此外，采用音频分类模型和语音分离模型这两个神经网络配合，分别实现通道选择和通道分离，在保证分离效果的同时降低了计算量，提高了系统执行的实时性。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图6是本申请实施例提供的一种音频数据处理装置的结构示意图，参见图6，该装置包括：

拼接模块601，用于对多个音频数据的音频特征进行拼接，得到第一音频特征，该多个音频数据由同一设备上的多个麦克风组件采集得到；

分类模块602，用于对该第一音频特征进行分类处理，得到分类标签，该分类标签用于指示该第一音频特征中的目标音频特征，该目标音频特征为该多个麦克风组件中距离声源最近的麦克风组件对应的音频特征；

分离模块603，用于基于该分类标签，从该第一音频特征中分离出该目标音频特征；

生成模块604，用于基于该目标音频特征，生成目标音频数据。

本申请实施例提供的装置，通过对多个音频数据的音频特征进行拼接得到的第一音频特征进行分类处理，以得到分类标签，由于分类标签能够指示第一音频特征中的哪些音频特征是距离声源最近的麦克风组件采集到的音频数据对应的音频特征，进而将分类标签所指示的目标音频特征，从第一音频特征中分离出来，以便基于分离出的目标音频特征来生成目标音频数据，使得目标音频数据是距离声源最近的麦克风组件采集到的音频数据，实现将目标音频数据从采集到的音频数据中分离出来，提高了音频数据分离的准确性。

在一种可能的实现方式中，该分类模块602，用于将该第一音频特征输入音频分类模型，通过该音频分类模型对该第一音频特征进行分类处理，得到该分类标签。

在一种可能的实现方式中，该装置还包括：

在一种可能的实现方式中，该拼接模块601，用于对该多个音频数据的音频特征进行拼接，得到拼接后的音频特征；对该拼接后的音频特征进行压缩，得到该第一音频特征。

在一种可能的实现方式中，该生成模块604，用于将该目标音频特征输入语音分离模型，通过该语音分离模型，输出该目标音频特征的掩模；基于该目标音频特征的掩模，对该多个音频数据中该目标音频特征对应的音频数据进行语音分离，得到该目标音频数据。

需要说明的是：上述实施例提供的音频数据处理装置在对音频数据进行分离时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频数据处理装置与音频数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本申请实施例提供的一种电子设备的结构示意图。该电子设备700 可以是：车辆、智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备700还可能被称为用户设备、便携式车载终端、膝上型车载终端、台式车载终端等其他名称。

通常，电子设备700包括有：一个或多个处理器701和一个或多个存储器 702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA (Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701 可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括 AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器701所执行以实现本申请中方法实施例提供的音频数据处理方法。

在一些实施例中，电子设备700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口 703相连。具体地，外围设备包括：射频电路704、显示屏705、音频电路706、和电源707中的至少一种。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它车载终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置电子设备700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在电子设备700的不同表面或呈折叠设计；在再一些实施例中，显示屏705可以是柔性显示屏，设置在电子设备700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display，液晶显示屏)、 OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

音频电路706可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路 704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路706 还可以包括耳机插孔。

电源707用于为电子设备700中的各个组件进行供电。电源707可以是交流电、直流电、一次性电池或可充电电池。当电源707包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

领域技术人员可以理解，图7中示出的结构并不构成对电子设备700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由处理器执行以完成上述实施例中的音频数据处理方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序，该计算机程序存储在计算机可读存储介质中，电子设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该电子设备执行上述实施例中提供的音频数据处理方法的方法步骤。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来程序代码相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频数据处理方法，其特征在于，所述方法包括：

对多个音频数据的音频特征进行拼接，得到第一音频特征，所述多个音频数据由同一设备上的多个麦克风组件采集得到；

将所述第一音频特征输入音频分类模型，通过所述音频分类模型对所述第一音频特征进行分类处理，得到分类标签，所述分类标签用于指示所述第一音频特征中的目标音频特征，所述目标音频特征为所述多个麦克风组件中距离声源最近的麦克风组件对应的音频特征；

基于所述分类标签，从所述第一音频特征中分离出所述目标音频特征；

基于所述目标音频特征，生成目标音频数据；

所述音频分类模型的训练过程包括：

获取多个第一样本音频数据对应的多个第一样本音频特征，以及所述多个第一样本音频特征对应的样本分类标签，所述多个第一样本音频数据由同一设备上的多个麦克风组件采集得到，所述样本分类标签用于指示所述多个第一样本音频特征中的目标样本音频特征，所述目标样本音频特征为所述多个麦克风组件中距离声源最近的麦克风组件对应的第一样本音频特征；

基于所述多个第一样本音频特征和所述多个第一样本音频特征对应的样本分类标签，训练所述音频分类模型。

2.根据权利要求1所述的方法，其特征在于，所述对多个音频数据的音频特征进行拼接，得到第一音频特征之前，所述方法还包括：

对所述多个音频数据进行特征提取，得到所述多个音频数据的音频特征。

3.根据权利要求1所述的方法，其特征在于，所述对多个音频数据的音频特征进行拼接，得到第一音频特征包括：

对所述多个音频数据的音频特征进行拼接，得到拼接后的音频特征；

对所述拼接后的音频特征进行压缩，得到所述第一音频特征。

4.根据权利要求1所述的方法，其特征在于，所述设备为车辆，所述多个麦克风组件包括第一麦克风组件、第二麦克风组件、第三麦克风组件、第四麦克风组件和第五麦克风组件，所述第一麦克风组件和所述第二麦克风组件分别位于所述车辆的前风挡玻璃两侧的立柱与前风挡玻璃上部的横梁的连接处，所述第三麦克风组件和所述第四麦克风组件分别位于所述车辆的后风挡玻璃两侧的立柱与后风挡玻璃上部的横梁的连接处，所述第五麦克风组件位于所述第三麦克风组件和所述第四麦克风组件的连线中点对应的顶盖处。

5.根据权利要求1所述的方法，其特征在于，所述基于所述目标音频特征，生成目标音频数据包括：

将所述目标音频特征输入语音分离模型，通过所述语音分离模型，输出所述目标音频特征的掩模；

基于所述目标音频特征的掩模，对所述多个音频数据中所述目标音频特征对应的音频数据进行语音分离，得到所述目标音频数据。

6.一种音频数据处理装置，其特征在于，所述装置包括：

拼接模块，用于对多个音频数据的音频特征进行拼接，得到第一音频特征，所述多个音频数据由同一设备上的多个麦克风组件采集得到；

分类模块，用于将所述第一音频特征输入音频分类模型，通过所述音频分类模型对所述第一音频特征进行分类处理，得到分类标签，所述分类标签用于指示所述第一音频特征中的目标音频特征，所述目标音频特征为所述多个麦克风组件中距离声源最近的麦克风组件对应的音频特征；

分离模块，用于基于所述分类标签，从所述第一音频特征中分离出所述目标音频特征；

生成模块，用于基于所述目标音频特征，生成目标音频数据；

所述音频分类模型的训练过程包括：

7.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求5任一项所述的音频数据处理方法所执行的操作。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至权利要求5任一项所述的音频数据处理方法所执行的操作。