CN114613379A

CN114613379A - 一种用于消除音频中噪声信号的方法及系统

Info

Publication number: CN114613379A
Application number: CN202210319218.8A
Authority: CN
Inventors: 焦煜童
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-06-10

Abstract

本发明提出了一种用于消除音频中噪声信号的方法及系统，涉及音频处理领域。其包括以下步骤：先获取待处理音频信息；然后对待处理音频信息进行静音检测，得到第一音频信息；然后对第一音频信息进行特征提取，得到特征音频信息；然后通过特征音频信息获取滤波系数，并利用滤波系数对特征音频信息进行频域滤波处理，得到滤波音频信息；最后对滤波音频信息进行逆变换，得到去噪音频信息。通过上述方法能够将待处理音频进行去噪处理，从而得到较为纯净的音频信息。

Description

一种用于消除音频中噪声信号的方法及系统

技术领域

本发明涉及音频处理领域，具体而言，涉及一种用于消除音频中噪声信号的方法及系统。

背景技术

众所周知，音频信号一般都混有不同程度的噪声，例如用户在进行音频通话时可能处于各种场景，嘈杂的背景噪声将会对音频通话产生干扰。而随着技术的进步，人们对于音频的要求也越来越高，降噪技术也应运而生，并运用在耳机音频播放降噪和麦克风的音频录制降噪中，可有效地消除噪声干扰，带来了出色的播放和录制体验。音频降噪是指从带噪声音信号中提取出尽可能纯净的原始声音信号。音频信号中，短时的、非连续的、幅度大的脉冲或噪声尖峰称为脉冲噪声。脉冲噪声可由多种噪声源产生，如老唱片的划痕，唱片表面附着灰尘和颗粒，录音带的突然停止以及唱片表面的非规则变化等。脉冲噪声按照持续时间的长短分为短时脉冲噪声和暂态脉冲噪声(或称为持续脉冲噪声)。

为了获得更好的音频质量，通常都会对原始音频信号进行降噪处理，传统的音频降噪方法如：自适应滤波器、谱减法以及维纳滤波法等等。然而现有技术中音频的降噪效果均不佳，不能用类似于人耳的方式对音频进行降噪处理，提高音频识别性能。

发明内容

本发明的目的在于提供一种用于消除音频中噪声信号的方法及系统，其能够将待处理音频进行去噪处理，从而得到较为纯净的音频信息。

本发明的实施例是这样实现的：

第一方面，本申请实施例提供一种用于消除音频中噪声信号的方法，其包括以下步骤：

获取待处理音频信息；

对待处理音频信息进行静音检测，得到第一音频信息；

对第一音频信息进行特征提取，得到特征音频信息；

通过特征音频信息获取滤波系数，并利用滤波系数对特征音频信息进行频域滤波处理，得到滤波音频信息；

对滤波音频信息进行逆变换，得到去噪音频信息。

在本发明的一些实施例中，上述对第一音频信息进行特征提取，得到特征音频信息的步骤具体包括：

将第一音频信息进行分帧处理；

将分帧处理后的第一音频信息进行特征提取，得到特征音频信息。

将第一音频信息进行分帧处理；

向分帧处理后的第一音频信息中添加随机噪声；

将添加随机噪声后的第一音频信息进行特征提取，得到特征音频信息。

在本发明的一些实施例中，上述特征提取采用FBank特征提取。

将第一音频信息通过一个高通滤波器，得到第一滤波音频信号；

将第一滤波音频信息进行预处理，得到预处理音频信号；

将预处理音频信号进行快速傅里叶变换，得到频谱音频信号；

将频谱音频信号通过三角波滤波器进行滤波，得到第二滤波音频信号；

将第二滤波音频信号进行对数变换，得到对数音频信号；

利用对数音频信号带入离散余弦变换得到的参数进行特征向量生成，得到特征音频信息。

在本发明的一些实施例中，上述预处理包括：将第一滤波音频信息进行分帧处理。

在本发明的一些实施例中，上述预处理还包括：

将分帧处理后的第一滤波音频信息的每一帧进行加汉明窗处理。

第二方面，本申请实施例提供一种用于消除音频中噪声信号的系统，其包括获取模块，用以获取待处理音频信息；

静音检测模块，用以对待处理音频信息进行静音检测，得到第一音频信息；

特征提取模块，用以对第一音频信息进行特征提取，得到特征音频信息；

音频滤波模块，用以通过特征音频信息获取滤波系数，并利用滤波系数对特征音频信息进行频域滤波处理，得到滤波音频信息；

逆变换模块，用以对滤波音频信息进行逆变换，得到去噪音频信息。

第三方面，本申请实施例提供一种电子设备，其包括存储器，用于存储一个或多个程序；处理器。当上述一个或多个程序被上述处理器执行时，实现如上述第一方面中任一项上述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面中任一项上述的方法。

相对于现有技术，本发明的实施例至少具有如下优点或有益效果：

通过对待处理音频信息进行静音检测，可以检测出是否为人声，能更大程度上的保留人声，从而减少误判，起到类似于人耳的方式对音频进行处理。将待处理音频信息进行静音检测后进行特征提取，可以将时域范围内的音频信息转换到频域中进行处理。另外，先通过特征音频信息获取滤波系数，然后再利用获取的滤波系数对特征音频信息进行频域滤波处理，从而达到对特征音频信息进行自适应滤波，可以得到更加纯净的滤波音频信号。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明一种用于消除音频中噪声信号的方法一实施例的流程图；

图2为本发明一实施例中对第一音频信息进行特征提取，得到特征音频信息的具体流程图；

图3为本发明又一实施例中对第一音频信息进行特征提取，得到特征音频信息的具体流程图；

图4为本发明另一实施例中对第一音频信息进行特征提取，得到特征音频信息的具体流程图；

图5为本发明一种用于消除音频中噪声信号的系统一实施例的结构框图；

图6为本发明实施例提供的一种电子设备的结构框图。

图标：1、获取模块；2、静音检测模块；3、特征提取模块；4、音频滤波模块；5、逆变换模块；6、存储器；7、处理器；8、通信接口。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。

实施例

请参阅图1，该一种用于消除音频中噪声信号的方法包括以下步骤：

步骤S1:获取待处理音频信息；

上述步骤中，获取待处理音频可以是获取已经录制好的音频，也可以是通过实时录制音频，具体获取方式可以根据实际情况进行自主选择。

步骤S2:对待处理音频信息进行静音检测，得到第一音频信息。

上述步骤中，通过对待处理音频信息进行静音检测，可以检测出待处理音频中静音的部分，通过对静音部分进行分析判断，其中分析出是人声时，将人声的部分进行保留，对不是人声的部分进行删除处理，降低后续的处理量。通过静音检测不仅可以降低后续的处理量，还可以更大程度上的保留人声，从而减少误判，起到类似于人耳的方式对音频进行处理。示例性地，可以将待处理音频信息按秒分段进行静音检测，如果一秒钟超过80％都是静音信息，则可以判断是无人声，否则，就是有人声。当然静音检测可以根据实际情况进行选择不同的现有技术中的静音检测方法，此处就不再赘述。

步骤S3:对第一音频信息进行特征提取，得到特征音频信息。

上述步骤中，通过将第一音频信息进行特征提取，进行时域和频域之间的转换，从而可以将第一音频信息进行计算处理，用以滤除噪音信息。

请参阅图2，上述步骤S3可以具体包括：

步骤S3-1：将第一音频信息进行分帧处理。

上述步骤中，第一音频信息中语音信号是快速变换的，如果直接对其进行特征提取，可能会丢失部分信息。因此将不定长的第一音频信息切分成固定的小段，每一小段就叫一帧，这样每一帧内语音信号就相对变化平缓一些，就可以方便对其进行特征提取而不丢失太多信息。

示例性地，可以取10-30ms的音频为一帧，这样一帧内既有足够多的周期，又不会变化得太剧烈。另外为了避免后续逐帧处理的时候对信号的遗漏，在对帧做偏移的时候，可以设置有帧迭(帧与帧之间重叠一部分)。例如，可以取帧长的一半做为帧移，也就是每次位移一帧的二分之一后再取下一帧，这样还可以进一步的避免帧与帧之间的特性变换太大。

步骤S3-2：将分帧处理后的第一音频信息进行特征提取，得到特征音频信息。

请参阅图3，上述步骤S3还可以具体包括：

步骤S3-3：将第一音频信息进行分帧处理。

上述步骤可参考步骤S3-1，此处就不再赘述。

步骤S3-4：向分帧处理后的第一音频信息中添加随机噪声。

上述步骤中，考虑到某些人工合成(使用软件合成)的音频进行特征提取时可能会造成一些数字错误，因此通过对其添加随机噪声，就可以很好的解决这一类问题。需要说明的是，添加随机噪声的强度可以根据实际情况进行控制，从而能够更好的进行随机噪声添加。

步骤S3-5：将添加随机噪声后的第一音频信息进行特征提取，得到特征音频信息。

步骤S4:通过特征音频信息获取滤波系数，并利用滤波系数对特征音频信息进行频域滤波处理，得到滤波音频信息。

上述步骤中，先通过特征音频信息获取滤波系数，然后再利用获取的滤波系数对特征音频信息进行频域滤波处理，从而达到对特征音频信息进行自适应滤波，可以得到更加纯净的滤波音频信号。

请参阅图1，上述步骤S3中特征提取可以采用FBank特征提取。

上述方案中，基于人耳对声音频谱的响应是非线性的，通过FBank特征提取对第一音频信息进行特征提取，可以很好的以类似于人耳的方式对第一音频信息进行处理，从而提高语音识别的性能。

请参阅图4，上述步骤S3还可以具体包括：

步骤S3-6：将第一音频信息通过一个高通滤波器，得到第一滤波音频信号。

上述方案中，通过将第一音频信息通过一个高通滤波器，可以提高第一音频信息中的高频部分，使信号的频谱变得更加平坦，使其保持在低频到高频的整个频带中，从而能用同样的信噪比求得频谱。另外，还可以消除发声过程中声带和嘴唇的效应，来补偿语音信号受到发声系统所抑制的高频部分，也可以突出高频的共振峰，从而可以方便后续对第一音频信息进行处理分析，得到更高质量的处理结果。

步骤S3-7：将第一滤波音频信息进行预处理，得到预处理音频信号。

上述方案中，通过将第一滤波音频信息进行预处理，可以提高后续对预处理音频信号进行快速傅里叶变换的质量，使得能更好的将相应的音频信息从时域转换到频域中，从而在频域中对其进行处理。

请参阅图4，上述步骤S3-7中预处理包括：将第一滤波音频信息进行分帧处理。

上述方案中，可参考步骤S3-1，此处就不再赘述。

请参阅图4，上述步骤S3-7中预处理还包括：将分帧处理后的第一滤波音频信息的每一帧进行加汉明窗处理。

上述方案中，将第一滤波音频信息进行分帧处理，可以将对应的时域信号进行信号截断，方便后续进行快速傅里叶变换。如果截断的时间长度不是周期的整数倍，那么截取后的信号将会存在一定的泄露，而对分帧处理后的第一滤波音频信息的每一帧进行加汉明窗处理，可以使得时域信号更好的满足快速傅里叶变换处理的周期性要求，也可以最大程度的减少泄露误差，还能增加每一帧左端和右端的连续性。

步骤S3-8：将预处理音频信号进行快速傅里叶变换，得到频谱音频信号。

上述方案中，由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以经过快速傅里叶变换可以得到预处理音频信号在频谱上的能量分布，而且能够大幅度的提高运算过程和减少运算量。

步骤S3-9：将频谱音频信号通过三角波滤波器进行滤波，得到第二滤波音频信号。

上述方案中，将频谱音频信号通过三角波滤波器进行滤波，可以将频谱进行平滑化，并起到消除谐波的作用。并且不仅可以避免输入的音频信息中语音的音调不同而对频谱的影响，还可以有效的降低后续的运算量。

步骤S3-10：将第二滤波音频信号进行对数变换，得到对数音频信号。

上述方案中，通过将第二滤波音频信号进行对数变换，可以使得第二滤波音频信号中每一帧的包含的语音特征多上一维度的特征，从而可以提高每一帧中语音的特征信息，使得能包含更多有用的信息。示例性地，加了对数变换后还可以根据需要加入其他语音特征用于测试识别率，例如加入包含音高、过零率以及共振峰等其他语音特征。

步骤S3-11：利用对数音频信号带入离散余弦变换得到的参数进行特征向量生成，得到特征音频信息。

上述方案中，通过将对数音频信号带入离散余弦变换，能够得到相应的倒谱系数，再利用倒谱系数进行进行特征向量生成，从而可以方便后续对特征向量进行滤波处理，滤除掉其中的噪音成分。

步骤S5:对滤波音频信息进行逆变换，得到去噪音频信息。

上述步骤中，通过对滤波音频信息进行逆变换，可以将频域的滤波音频信息转换到时域的去噪音频信息，从而使得人耳能够对其进行识别。

基于同样的发明构思，请参阅图5，本发明还提出一种用于消除音频中噪声信号的系统，具体包括：

获取模块1，用以获取待处理音频信息。

静音检测模块2，用以对待处理音频信息进行静音检测，得到第一音频信息。

特征提取模块3，用以对第一音频信息进行特征提取，得到特征音频信息。

音频滤波模块4，用以通过特征音频信息获取滤波系数，并利用滤波系数对特征音频信息进行频域滤波处理，得到滤波音频信息。

逆变换模块5，用以对滤波音频信息进行逆变换，得到去噪音频信息。

上述系统具体实现过程请参照本申请实施例提供的一种用于消除音频中噪声信号的方法，在此不再赘述。

请参阅图6，图6为本发明实施例提供的一种电子设备的结构框图。该电子设备包括存储器6、处理器7和通信接口8，该存储器6、处理器7和通信接口8相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器6可用于存储软件程序及模块，如本申请实施例所提供的一种面向直播视频大数据的区块链数据版权保护系统对应的程序指令/模块，处理器7通过执行存储在存储器6内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口8可用于与其他节点设备进行信令或数据的通信。

其中，存储器6可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器7可以是一种集成电路芯片，具有信号处理能力。该处理器7可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解，图6所示的结构仅为示意，电子设备还可包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件、软件或其组合实现。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

上述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请实施例提供的一种用于消除音频中噪声信号的方法及系统，通过对待处理音频信息进行静音检测，可以检测出是否为人声，能更大程度上的保留人声，从而减少误判，起到类似于人耳的方式对音频进行处理。将待处理音频信息进行静音检测后进行特征提取，可以将时域范围内的时域信息转换到频域中进行处理。另外，先通过特征音频信息获取滤波系数，然后再利用获取的滤波系数对特征音频信息进行频域滤波处理，从而达到对特征音频信息进行自适应滤波，可以得到更加纯净的滤波音频信号。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种用于消除音频中噪声信号的方法,其特征在于，包括以下步骤：

获取待处理音频信息；

对待处理音频信息进行静音检测，得到第一音频信息；

对第一音频信息进行特征提取，得到特征音频信息；

对滤波音频信息进行逆变换，得到去噪音频信息。

2.如权利要求1所述的一种用于消除音频中噪声信号的方法,其特征在于，所述对第一音频信息进行特征提取，得到特征音频信息的步骤具体包括：

将第一音频信息进行分帧处理；

3.如权利要求1所述的一种用于消除音频中噪声信号的方法,其特征在于，所述对第一音频信息进行特征提取，得到特征音频信息的步骤具体包括：

将第一音频信息进行分帧处理；

向分帧处理后的第一音频信息中添加随机噪声；

4.如权利要求1所述的一种用于消除音频中噪声信号的方法,其特征在于，所述特征提取采用FBank特征提取。

5.如权利要求1所述的一种用于消除音频中噪声信号的方法,其特征在于，所述对第一音频信息进行特征提取，得到特征音频信息的步骤具体包括：

将第一滤波音频信息进行预处理，得到预处理音频信号；

将第二滤波音频信号进行对数变换，得到对数音频信号；

6.如权利要求5所述的一种用于消除音频中噪声信号的方法,其特征在于，所述预处理包括：将第一滤波音频信息进行分帧处理。

7.如权利要求6所述的一种用于消除音频中噪声信号的方法,其特征在于，所述预处理还包括：

8.一种用于消除音频中噪声信号的系统,其特征在于，包括：

获取模块，用以获取待处理音频信息；

9.一种电子设备，其特征在于，包括：

存储器，用于存储一个或多个程序；

处理器；

当所述一个或多个程序被所述处理器执行时，实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。