CN116092465A

CN116092465A - 一种车载音频降噪方法、装置、存储介质和电子设备

Info

Publication number: CN116092465A
Application number: CN202310334553.XA
Authority: CN
Inventors: 杨良志; 白琳; 汪志新; 邸昌国; 简锐
Original assignee: Richinfo Technology Co ltd
Current assignee: Richinfo Technology Co ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-05-09
Anticipated expiration: 2043-03-31
Also published as: CN116092465B

Abstract

本申请公开了一种车载音频降噪方法及装置，其特征在于，包括：获取当前时刻车辆播放的原始音频数据及与原始音频数据对应的带噪音频数据，带噪音频数据的噪音包括车内运行的噪音数据；将原始音频数据和带噪音频数据输入音频增强模型，获得目标音频数据，音频增强模型用于降低带噪音频数据对原始音频数据的干扰；响应于目标音频数据与车内运行的噪音数据的相似度高于第一阈值，则按照预设降噪模型对目标音频数据进行降噪，得到降噪后的音频数据。发明通过播放音乐实时建立车内音频增强模型并动态调整输出的噪音，模型根据环境更新；同时，结合了预设降噪模型，对音频进一步降噪，大大改善了降噪效果。

Description

一种车载音频降噪方法、装置、存储介质和电子设备

技术领域

本发明涉及智能语音领域，具体涉及一种车载音频降噪方法、装置、存储介质和电子设备和计算机程序产品。

背景技术

现有技术的音频降噪方法都是针对特有汽车型号及空间定制的，该种方法的局限性较大，当车内音频环境较为复杂或者车内环境发生较大的变化时，现有的方法就容易出现降噪效果差、稳定性差的问题，且根据车型或者环境定制的方法成本较高，不具备可复制性，故其不能满足用户对于高质量音频体验的要求。

所以，如何提供一种更高效、可靠地车载音频降噪方法，是待解决的技术问题。

发明内容

基于此，有必要针对现有的问题，提供一种车载音频降噪方法、装置、存储介质和电子设备。

第一方面，本申请实施例提供了一种车载音频降噪方法，所述方法包括：

获取当前时刻车辆播放的原始音频数据及与所述原始音频数据对应的带噪音频数据，所述带噪音频数据的噪音包括车内运行的噪音数据；

将所述原始音频数据和所述带噪音频数据输入音频增强模型，获得目标音频数据，所述音频增强模型用于降低所述带噪音频数据对所述原始音频数据的干扰；

确定所述目标音频数据与所述车内运行的噪音数据的相似度是否高于第一阈值；

响应于所述目标音频数据与所述车内运行的噪音数据的相似度高于第一阈值，则按照预设降噪模型对所述目标音频数据进行降噪处理，获得降噪处理后的音频数据；

其中，所述按照预设降噪模型更新所述目标音频数据，包括：将所述车内运行的噪音数据对应的低频滤波函数、中频滤波函数及高频滤波器函数均作反相操作，获得反相车内运行噪音数据；将所述反相车内运行的噪音数据对应的低频滤波函数、中频滤波函数及高频滤波函数分别与所述目标音频数据对应的低频滤波函数、中频滤波函数及高频滤波函数进行叠加，获得更新后的所述目标音频数据。

优选地，通过车载拾音器获取所述车内运行的噪音数据。

优选地，按照下述方式预先训练得到音频增强模型：

分别提取所述原始音频数据的第一音频谱特征和所述带噪音频数据的第二音频谱特征；

对所述第二音频谱特征进行压缩，生成第一深度音频谱特征；

对所述第一深度音频谱特征进行去噪，获得去噪后的第二深度音频谱特征；

对所述第二深度音频谱特征进行音频谱恢复，得到所述带噪音频数据的第三音频谱特征；

确定所述第一音频谱特征与所述第三音频谱特征的特征均方误差，基于所述特征均方误差训练所述音频增强模型，直至所述特征均方误差符合第二阈值；

所述音频增强模型为卷积-长短时记忆网络-反卷积结构的模型，其中，所述音频增强模型的输入为带噪音频数据，输出为目标音频数据。

优选地，所述第一深度音频谱特征通过卷积神经网络对所述第二音频谱特征进行压缩来获取。

优选地，所述第二音频谱特征通过长短时记忆网络对所述第一音频谱特征进行逐帧去噪来获取。

优选地，所述第三音频谱特征通过反卷积神经网络对所述第二音频谱特征进行音频恢复来获取。

第二方面，本申请实施例提供了一种车载音频降噪装置，所述装置包括：

获取模块，用于获取当前时刻车辆播放的原始音频数据及与所述原始音频数据对应的带噪音频数据，所述带噪音频数据的噪音包括车内运行的噪音数据；

处理模块，用于将所述原始音频数据和所述带噪音频数据输入音频增强模型，获得目标音频数据，所述音频增强模型用于降低所述带噪音频数据对原始音频数据的干扰；

确定模块，用于确定所述目标音频数据与所述车内运行的噪音数据的相似度是否高于第一阈值；

更新模块，响应于所述目标音频数据与所述车内运行的噪音数据的相似度高于第一阈值，则按照预设降噪模型对所述目标音频数据进行降噪处理，获得降噪处理后的音频数据；其中，所述按照预设降噪模型更新所述目标音频数据，包括：将所述车内运行的噪音数据对应的低频滤波函数、中频滤波函数及高频滤波器函数均作反相操作，获得反相车内运行噪音数据；将所述反相车内运行的噪音数据对应的低频滤波函数、中频滤波函数及高频滤波函数分别与所述目标音频数据对应的低频滤波函数、中频滤波函数及高频滤波函数进行叠加，获得更新后的所述目标音频数据。

第三方面，本申请实施例提供一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现上述的方法步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行上述的方法步骤。

在本申请实施例中，利用了深度学习技术，通过播放音乐实时动态建立车内音频增强模型，并根据车内音频增强模型实时调整输出目标音乐的噪音，本发明的车内环境模型是根据环境不断更新的，用户使用时间越长，车载音频的降噪效果就越好，实现了智能降噪效果；同时，方法结合了预设降噪模型，对车内环境模型输出的音频数据进一步实现降噪，本发明的方法采用了深度学习技术和动态调整技术，大大改善了车载的降噪效果。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请一示例性实施例提供的方法的流程图；

图2为根据本申请一示例性实施例提供的装置的结构示意图；

图3示出了本申请一示例性实施例提供的一种电子设备的示意图；

图4示出了本申请一示例性实施例提供的一种计算机可读介质的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

另外，术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供一种车载音频降噪方法、装置、存储介质和电子设备，下面结合附图进行说明。

请参考图1，其示出了本申请的一些实施方式所提供的一种车载音频降噪方法的流程图，如图所示，方法可以包括以下步骤：

S101：获取当前时刻车辆播放的原始音频数据及与原始音频数据对应的带噪音频数据，带噪音频数据的噪音包括车内运行的噪音数据；

为了进行音频增强的训练，需要先准备好第一次的训练数据。训练数据包括播放车载音乐的原始音频数据和接收到的带噪音的音频数据。在实际应用中，播放车载音乐时，车内噪音会包含用户的声音、环境噪音等，这些统称为车内运行噪音数据；更具体地，车内运行噪音数据通过车载拾音器来获取。

在实际应用中，带噪音频数据的获取通过降噪系统来获取，车载音乐播放原始音频数据后，音频数据包含低频（40Hz-80Hz）、中频（80-2560Hz）和高频数据（2560Hz-5120Hz），降噪系统的麦克风接收高中低频音乐从各个不同方向返回的音乐回声，其中，系统会将每个麦克接收到的信号进行比较，利用信号中显出的极微小滞后，计算出各个麦克之间的距离，并且计算出每个麦克到障碍物和音乐声源之间的距离。然后系统利用“欧式距离矩阵”来分析每个回声信号，最后将所有的回声信号音频数据叠加得到带噪音频数据。

S102：将原始音频数据和带噪音频数据输入音频增强模型，获得目标音频数据，音频增强模型用于降低带噪音频数据对原始音频数据的干扰；

其中，预先训练得到音频增强模型包括如下步骤：

S1021：分别提取原始音频数据的第一音频谱特征和车内运行的噪音数据的第二音频谱特征；

具体地，分别提取原始音频数据的第一音频谱特征和带噪音频数据的第二音频谱特征，其中，所述音频谱特征为音频的谱特征，包括Fbank（Filter bank，滤波器组）特征、MFCC（Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征、PLP（Perceptuallinear predictive，感知线性预测）特征、功率谱特征。

其中，采用kaldi工具包提取语音的Fbank特征并存储在运数据处理中心，并于该车辆车架号进行绑定保存在分布式数据库中，在训练语音增强模块时，同时存储一条的原始音频路径和带噪音频路径。在网络训练的过程中就可以直接进行均方误差的计算。

S1022：对第二音频谱特征进行压缩，生成第一深度音频谱特征；

对确定的第二音频谱特征进行压缩，在本实施方式中，包括：通过卷积神经网络对所述第二音频谱特征进行压缩，生成第一深度语音特征；

具体地，卷积神经网络为四层卷积神经网络，卷积神经网络的卷积层通道数分别为8，16，32，64；将第二音频谱特征经过四层卷积神经网络，卷积层的通道数分别为（8，16，32，64），卷积核的大小为（3,3），步长为（1,2）。生成第一深度语音特征。

S1023：对第一深度音频谱特征进行去噪，获得去噪后的第二深度音频谱特征；

对确定的第一深度语音特征进行去噪，在本实施方式中，包括：通过长短时记忆网络对第一深度语音特征进行逐帧去噪，得到去噪后的第二深度语音特征；将卷积后的第一深度语音特征经过2层LSTM，此时，注意经过LSTM的隐层数要和输入的尺寸设置相同，这样在后面步骤中反卷积才能顺利恢复到原始特征尺寸大小。

S1024：对第二深度音频谱特征进行音频谱恢复，得到带噪音频数据的第三音频谱特征；

对确定的第二深度语音特征进行音频谱恢复，在本实施方式中，包括：基于反卷积神经网络对第二深度语音特征进行音频谱恢复，用于避免神经网络训练的梯度消失。

具体地，反卷积的通道数分别为（32,16,8,1）第一个反卷积层的卷积核大小为（3,3）其余均设置为（3,4），步长均为（1,2）。得到带噪音频的第三音频谱特征。

S1025：确定第一音频谱特征与第三音频谱特征的特征均方误差，基于均方误差训练所述音频增强模型，直至特征均方误差符合第二阈值；音频增强模型为卷积-长短时记忆网络-反卷积结构的模型，其中，音频增强模型的输入为带噪音频数据，输出为目标音频数据。

确定第一音频谱特征和带噪音频的第三音频谱特征的特征均方误差，也就是根据Fbank特征计算均方误差（MSE）。基于确定的均方误差来训练音频增强模型。直至特征均方误差符合第二阈值的时候，停止训练，具体地，第二阈值可以根据实际需求来设定。

在本实施方式中，通过上述特定的步骤（卷积神经网络，反卷积神经网络）训练的音频增强模型为卷积-长短时记忆网络-反卷积结构的音频增强模型。

更具体，在本实施方式中，通过5G数据通道将车内音频增强模型传入到云端数据处理中心处理，并与该车辆车架号进行绑定保存在分布式数据库，同时，根据不断的学习过程来更新音频增强模型的参数，从而使得音频增强模型可以根据环境的变化而不断变化，即本发发明利用了深度学习技术，建立了随车内环境而不断变化的车载音频降噪模型，从而实现了智能降噪。

S103：确定目标音频数据与车内运行的噪音数据的相似度是否高于第一阈值；

S104：响应于目标音频数据与车内运行的噪音数据的相似度高于第一阈值，则按照预设降噪模型对目标音频数据进行降噪处理，得到降噪处理后的音频数据。

具体地，目标音频数据与车内运行噪音数据的相似度是由其高频滤波函数、中频滤波函数和低频滤波函数的波形的最大幅度来具体确定的；具体地，第一阈值可以为0.99。

具体地，按照预设降噪模型更新目标音频数据，包括如下步骤：

将车内运行噪音数据对应的低频滤波函数、中频滤波函数及高频滤波器函数均作反相操作，获得反相车内运行噪音数据；

将反相车内运行噪音数据对应的低频滤波函数、中频滤波函数及高频滤波函数分别与目标音频数据对应的低频滤波函数、中频滤波函数及高频滤波函数进行叠加，获得更新后的目标音频数据。

在本申请实施例中，利用了深度学习技术，通过播放音乐实时动态建立车内音频增强模型，并根据车内音频增强模型实时调整输出目标音乐的噪音，本发明的车内环境模型是根据环境不断更新的，用户使用时间越长，车载音频的降噪效果就越好，实现了智能降噪效果；同时，方法结合了预设降噪模型，对车内环境模型输出的音频数据进一步实现降噪，本发明的方法采用了深度学习技术和动态调整技术，大大改善了车载的降噪效果；

在上述的实施例中，提供了一种方法，与之相对应的，本申请还提供一种装置。本申请实施例提供的装置可以实施上述方法，该装置可以通过软件、硬件或软硬结合的方式来实现。例如，该装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。

在本申请实施例的一些实施方式中本申请实施例提供的装置20，与本申请前述实施例提供的方法出于相同的发明构思，具有相同的有益效果。

请参考图2，其示出了本申请的一些实施方式所提供的一种装置的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图2所示，装置20可以包括：

获取模块201，用于获取当前时刻车辆播放的原始音频数据及与原始音频数据对应的带噪音频数据，所噪音频数据的噪音包括车内运行的噪音数据；

处理模块202，用于将原始音频数据和带噪音频数据输入音频增强模型，获得目标音频数据，音频增强模型用于降低带噪音频数据对原始音频数据的干扰；

确定模块203，用于确定目标音频数据与车内运行的噪音数据的相似度是否高于第一阈值；

更新模块204，响应于目标音频数据与车内运行的噪音数据的相似度高于第一阈值，则按照预设降噪模型对目标音频数据进行降噪处理，获得降噪处理后的音频数据；其中，按照预设降噪模型更新目标音频数据，包括：将车内运行的噪音数据对应的低频滤波函数、中频滤波函数及高频滤波器函数均作反相操作，获得反相车内运行噪音数据；将反相车内运行的噪音数据对应的低频滤波函数、中频滤波函数及高频滤波函数分别与目标音频数据对应的低频滤波函数、中频滤波函数及高频滤波函数进行叠加，获得更新后的目标音频数据。

本申请实施方式还提供一种与前述实施方式所提供的方法对应的电子设备，所述电子设备可以是用于服务端的电子设备，例如服务器，包括独立的服务器和分布式服务器集群等，以执行上述方法；所述电子设备也可以是用于客户端的电子设备，例如手机、笔记本电脑、平板电脑、台式机电脑等，以执行上述方法。

请参考图3，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图3所示，所述电子设备30包括：处理器300，存储器301，总线302和通信接口303，所述处理器300、通信接口303和存储器301通过总线302连接；所述存储器301中存储有可在所述处理器300上运行的计算机程序，所述处理器300运行所述计算机程序时执行本申请前述方法。

其中，存储器301可能包含高速随机存取存储器（RAM：Random Access Memory），也可能还包括非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。通过至少一个通信接口303（可以是有线或者无线）实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线302可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器301用于存储程序，所述处理器300在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的方法可以应用于处理器300中，或者由处理器300实现。

处理器300可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器300中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器300可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器301，处理器300读取存储器301中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的方法对应的计算机可读介质，请参考图4，其示出的计算机可读存储介质为光盘40，其上存储有计算机程序（即程序产品），所述计算机程序在被处理器运行时，会执行前述方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，其均应涵盖在本申请的权利要求和说明书的范围当中。

Claims

1.一种车载音频降噪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，通过车载拾音器获取所述车内运行的噪音数据。

3.根据权利要求1所述的方法，其特征在于，按照下述方式预先训练得到音频增强模型：

4.根据权利要求3所述的方法，其特征在于，所述第一深度音频谱特征通过卷积神经网络对所述第二音频谱特征进行压缩来获取。

5.根据权利要求3所述的方法，其特征在于，所述第二音频谱特征通过长短时记忆网络对所述第一音频谱特征进行逐帧去噪来获取。

6.根据权利要求3所述的方法，其特征在于，所述第三音频谱特征通过反卷积神经网络对所述第二音频谱特征进行音频恢复来获取。

7.一种车载音频降噪装置，其特征在于，包括：

8.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现上述权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1至6中任一项所述的方法。