CN112420065B - 音频降噪处理方法和装置及设备 - Google Patents
音频降噪处理方法和装置及设备 Download PDFInfo
- Publication number
- CN112420065B CN112420065B CN202011221097.0A CN202011221097A CN112420065B CN 112420065 B CN112420065 B CN 112420065B CN 202011221097 A CN202011221097 A CN 202011221097A CN 112420065 B CN112420065 B CN 112420065B
- Authority
- CN
- China
- Prior art keywords
- layer
- module
- data
- characteristic data
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 49
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000005070 sampling Methods 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 38
- 239000012634 fragment Substances 0.000 claims abstract description 36
- 230000005236 sound signal Effects 0.000 claims abstract description 24
- 238000005520 cutting process Methods 0.000 claims abstract description 3
- 238000012545 processing Methods 0.000 claims description 44
- 238000010606 normalization Methods 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 abstract description 6
- 238000011946 reduction process Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请涉及一种音频降噪处理方法,包括:获取待处理的音频信号,将音频信号划分为多个不重叠的音频片段;将各音频片段依次输入至编码器,由编码器中多层级联的下采样模块对音频片段进行逐层编码,得到相应的编码特征数据;将编码器中位于末层的下采样模块提取到的编码特征数据输入至译码器,由译码器中多层级联的上采样模块对编码特征数据进行逐层译码,得到相应的译码特征数据;将译码器中最后的上采样模块输出的译码特征数据与对应的音频片段进行裁剪和拼接得到拼接数据,并由拼接数据中提取出相应的莫尔斯码数据流。其通过采用数据驱动的方式,借助深度学习算法构建了一种有监督自动降噪模型,从而有效提高了音频降噪处理的鲁棒性。
Description
技术领域
本申请涉及信号处理技术领域,尤其涉及一种音频降噪处理方法和装置及设备。
背景技术
为消除噪声和电磁波等的干扰对音频数据的影响,提高后续分析的准确性,通常音频识别系统中都包含了音频增强功能模块。对于传统的基于数字信号处理的增强算法,如:谱减法,以及基于滤波的方法,如:维纳滤波、自适应滤波和卡尔曼滤波,基于统计模型的方法,基于信号分解的方法,如:子空间法和小波变化法等。尽管采用传统的信号增强方式减小了计算量,但是,在复杂电磁干扰环境下,由于噪声类型众多,造成的干扰机理复杂,因此采用传统的音频降噪算法普遍存在鲁棒性差的问题。
发明内容
有鉴于此,本申请提出了一种音频降噪处理方法,可以有效提高音频降噪算法的鲁棒性,能够用于对各种类型的音频数据进行降噪处理。
根据本申请的一方面,提供了一种音频降噪处理方法,包括:
获取待处理的音频信号,将所述音频信号划分为多个不重叠的音频片段;
将各所述音频片段依次输入至编码器,由所述编码器中多层级联的下采样模块对所述音频片段进行逐层编码,得到相应的编码特征数据;
将所述编码器中位于末层的下采样模块提取到的编码特征数据输入至译码器,由所述译码器中多层级联的上采样模块对所述编码特征数据进行逐层译码,得到相应的译码特征数据;
其中,当前层上采样模块对输入的编码特征数据进行译码后将译码特征数据输入至对应的下一层上采样模块之前,还包括:获取同层的下采样模块输出的编码特征数据,并将同层的所述下采样模块输出的编码特征数据与译码特征数据进行拼接,并将拼接后的数据作为下一层上采样模块的输入数据;
将所述译码器中最后的上采样模块输出的译码特征数据与对应的所述音频片段进行裁剪和拼接得到拼接数据,并由所述拼接数据中提取出相应的莫尔斯码数据流。
在一种可能的实现方式中,所述下采样模块对所述音频片段进行编码,得到相应的编码特征数据时,包括:
根据公式:进行;
其中,为l层下采样模块输出的编码特征数据;
fd为下采样算子,bn为批归一化算子,为l层下采样模块中进行批归一化后的输出结果,act为激活函数,卷积函数g为一维卷积算子,bl为l层下采样模块的偏置。
在一种可能的实现方式中,所述上采样模块对输入的编码特征数据进行译码,得到相应的译码特征数据时,包括:
根据公式:进行;
其中,为l层上采样模块输出的译码特征数据;
fu为上采样算子,级联算子c表示将和/>进行裁剪和拼接运算,卷积函数g为一维卷积算子,bl表示l层上采样模块的偏置。
在一种可能的实现方式中,由所述拼接数据中提取出相应的莫尔斯码数据流时,包括:
对所述拼接数据进行一维卷积操作,将所述拼接数据分解为不同类型的噪声和所述莫尔斯码数据流。
在一种可能的实现方式中,将所述编码器中位于末层的下采样模块提取到的编码特征数据输入至译码器时,还包括:
获取位于末层的下采样模块输出的编码特征数据,对所述编码特征数据进行一维卷积处理。
根据本申请的一方面,还提供了一种音频降噪处理装置,用于实现前面任一所述的音频降噪处理方法,包括依次连接的输入模块、编码器、译码器和拼接处理模块;
其中,所述输入模块,被配置为获取当前输入的音频片段;其中,所述音频片段通过对待处理的音频信号进行不重叠的划分后得到;
所述编码器包括有多层级联的下采样模块,多层级联的下采样模块被配置为对所述音频片段进行逐层编码,得到相应的编码特征数据;
所述编码器中位于末层的下采样模块与所述译码器连接,并被配置为将提取到的编码特征数据输入至所述译码器中;
所述译码器包括多层级联的上采样模块,多层级联的上采样模块被配置为对输入的所述编码特征数据进行逐层译码,得到相应的译码特征数据;
其中,所述编码器中各层下采样模块与所述译码器中同层的上采样模块相连接,且
所述译码器中各所述上采样模块,还被配置为:获取同层的下采样模块输出的编码特征数据,将同层的下采样模块输出的编码特征数据与上采样模块输出的译码特征数据进行拼接,并将拼接后的数据作为下一层上采样模块的输入数据;
所述拼接处理模块,被配置为获取所述译码器最终输出的译码特征数据,并将最终输出的译码特征数据与输入至所述输入模块的所述音频片段进行裁剪和拼接得到拼接数据后,由所述拼接数据中提取出相应的莫尔斯码数据流。
在一种可能的实现方式中,所述下采样模块包括依次连接的卷积层、激活层、标准化层和下采样层;
所述上采样模块包括依次连接的上采样层、卷积层、激活层和标准化层;
其中,所述下采样模块中的标准化层的输出与同层的所述上采样模块中的标准化层的输出相连接。
在一种可能的实现方式中,还包括连接在所述编码器与所述译码器之间的卷积模块;
所述卷积模块,被配置为获取所述编码器中的末层下采样模块输出的编码特征数据,对获取到的编码特征数据进行一维卷积处理后,再将处理后的编码特征数据输入至所述译码器。
在一种可能的实现方式中,所述拼接处理模块包括相连接的时域模板层和一维卷积层;
所述时域模板层,被配置为获取所述译码器最终输出的译码特征数据,并将最终输出的译码特征数据与输入至所述输入模块的所述音频片段进行裁剪和拼接得到拼接数据;
所述一维卷积层,被配置为由所述拼接数据中提取出相应的莫尔斯码数据流。
根据本申请的一方面,还提供了一种音频降噪处理设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现前面任一所述的方法。
本申请的音频降噪方法,通过对音频信号进行分帧预处理得到多个不重叠的音频片段后,将所得到的音频片段依次输入至所构建的深层的网络模型中,由网络模型中的编码器对音频片段进行逐层解码以充分提取不同尺度的长短时的上下文信息,进而再由译码器对编码器输出的编码特征数据进行逐层译码,并将译码得到的译码特征数据与编码阶段中同分辨率下的编码特征数据进行拼接融合,将拼接融合后的数据作为译码器中下一个上采样模块的输入数据,以此来减少信息的损失。最终使得本申请实施例音频降噪处理方法以时域信号作为输入数据,采用数据驱动的方式,借助深度学习算法构建了一种有监督自动降噪模型,从而有效提高了音频降噪处理的鲁棒性。同时,通过编码器对音频信号的信号特征的充分挖掘,以及跨层数据的拼接处理,减少了降维过程中的信息损失,提高了译码器重构信号的准确性。
根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面,并且用于解释本申请的原理。
图1示出本申请一实施例的音频降噪处理方法的流程图;
图2示出本申请一实施例的音频降噪处理装置的网络结构图;
图3示出本申请一实施例的音频降噪处理设备的结构框图。
具体实施方式
以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
图1示出根据本申请一实施例的音频降噪处理方法的流程图。如图1所示,该方法包括:步骤S100,获取待处理的音频信号,将音频信号划分为多个不重叠的音频片段。此处,需要指出的是,将音频信号划分为多个不重叠的音频片段时可以采用本领域常规技术手段来实现。即,在本申请实施例的音频降噪处理方法中,对音频信号进行划分时,采用常用的分帧技术对音频信号进行片段划分,划分为不同时域的多片段信号。
将音频信号划分为多个不重叠的音频片段后,即可将划分得到的多个音频片段依次输入至构建并训练好的神经网络中进行特征提取,以将各音频片段中的噪声和莫尔斯码音频数据流分别提取出来。
其中,需要指出的是,在本申请实施例的方法中,对各音频片段进行特征提取时所使用的神经网络以U-Net型网络为基础,在该网络的基础上构建了更深的网络结构以得到不同时域分辨率下的特征图(特征数据)。
即,在所构建的神经网络中包括有编码器和译码器。编码器包括有多层级联的下采样模块,译码器包括有多层级联的上采样模块。其中,需要说明的是,下采样模块的层数与上采样模块的层数相同,均为l层。
从而,在通过上述步骤S100,将音频信号划分为多个不重叠的音频片段后,即可执行步骤S200,将划分得到的音频片段输入至编码器,由编码器中多层级联的下采样模块对音频片段进行逐层编码,得到相应的编码特征数据。此处,需要说明的是,编码器中各下采样模块均输出对应的编码特征数据。也就是说,编码特征数据与编码器中下采样模块一一对应。并且,处于当前层的下采样模块的输入是以处于上一层的下采样模块输出的编码特征数据作为输入数据的。
通过编码器中多层级联的下采样模块对音频片段进行逐层编码,以提取出不同时域分辨率下的编码特征数据,从而充分提取出了音频信号中不同尺度的长短时的上下文信息。
然后,通过步骤S300,将编码器中的末层下采样模块提取到的编码特征数据输入至译码器,由译码器中多层级联的上采样模块对编码特征数据进行逐层译码,得到相应的译码特征数据。也就是说,在本申请实施例的方法中,译码器的输入是以编码器中位于最末层的下采样模块提取出来的编码特征数据作为输入数据的。并且,译码器中输出的译码特征数据同样也是与译码器中各层上采样模块一一对应。
同时,在译码器对输入的编码特征数据进行逐层译码的过程中,当前层上采样模块对输入的编码特征数据进行译码后将译码特征数据输入至对应的下一层上采样模块之前,还包括:获取同层的下采样模块输出的编码特征数据,并将同层的下采样模块输出的编码特征数据与译码特征数据进行拼接,将拼接后的数据作为下一层上采样模块的输入数据,以实现将解码阶段上采样的特征数据与编码阶段同分辨率下的特征数据进行融合,减少原始信息的损失。
进而再通过步骤S400,将译码器中最后的上采样模块输出的译码特征数据与对应的音频片段进行裁剪和拼接得到拼接数据,并由拼接数据中提取出相应的莫尔斯码数据流。
由此,本申请实施例的音频降噪方法,通过对音频信号进行分帧预处理得到多个不重叠的音频片段后,将所得到的音频片段依次输入至所构建的深层的网络模型中,由网络模型中的编码器对音频片段进行逐层解码以充分提取不同尺度的长短时的上下文信息,进而再由译码器对编码器输出的编码特征数据进行逐层译码,并将译码得到的译码特征数据与编码阶段中同分辨率下的编码特征数据进行拼接融合,将拼接融合后的数据作为译码器中下一个上采样模块的输入数据,以此来减少信息的损失。最终使得本申请实施例音频降噪处理方法以时域信号作为输入数据,采用数据驱动的方式,借助深度学习算法构建了一种有监督自动降噪模型,从而有效提高了音频降噪处理的鲁棒性。同时,通过编码器对音频信号的信号特征的充分挖掘,以及跨层数据的拼接处理,减少了降维过程中的信息损失,提高了译码器重构信号的准确性。
其中,应当指出的是,在本申请实施例的方法中,主要是通过所构建的深层的神经网络(即,有监督的端到端音频降噪模型)进行信号特征的提取,从而达到对音频信号的降噪处理的目的的。因此,在本申请实施例中,参阅图2,可以以U-Net型网络为基础构建的深层神经网络。
具体的,参阅图2,该深层神经网络模型具有N+1路输出。其中,第0路输出表示音频信号,第1—N路输出则分别表示N种不同的噪声。将输入的归一化的单声道音频数据记作:输出的第k路音频信号记作:/>且k∈{0,…,N}。其中,Lm,Ls分别表示音频文件数。
同时,为了保证网络输入与输出的样本点数相一致,并且下采样与上采样过程的对称性,编码器中所设置的下采样模块的层数与译码器中所设置的上采样模块的层数相同。即,参阅图2,编码器中所设置的下采样模块和译码器中所设置的上采样模块均为l层。下采样模块的输出记作xd,上采样模块的输出记作xu。
其中,每个下采样模块均包括有依次连接的卷积层、激活层、标准化层和下采样层。其中,卷积层作为下采样模块的输入层,下采样层则为下采样模块的输出层。具体的,第L层下采样模块的输出xd可表示为:
其中,为l层下采样模块输出的编码特征数据;
fd为下采样算子(即,下采样层算子),bn为批归一化算子(标准化层算子),为l层下采样模块中进行批归一化后的输出结果,act为激活函数,卷积函数g为一维卷积算子(卷积层算子),bl为l层下采样模块的偏置。
由此,在编码阶段,编码器中各下采样模块对音频片段进行编码得到相应的编码特征数据可通过依次连接的卷积层、激活层、标准化层和下采样层按照上述公式(1)对输入的音频片段依次进行卷积、激活、标准化和下采样处理后,输出相应的编码特征数据。
对应的,每个上采样模块则均包括依次连接的上采样层、卷积层、激活层和标准化层。其中,上采样层作为上采样模块的输入层,标准化层作为上采样模块的输出层。
具体的,第L层上采样模块的输出xu可表示为:
其中,为l层上采样模块输出的译码特征数据;fu为上采样算子,级联算子c表示将/>和/>进行裁剪和拼接运算,卷积函数g为一维卷积算子,bl表示l层上采样模块的偏置。
其中,在译码阶段由译码器对编码特征数据进行逐层译码的过程(即,上采样模块对编码特征数据进行译码得到相应的译码特征数据的过程)可直接按照上述公式(2)进行。即,通过上采样模块中设置的上采样层、卷积层、激活层和标准化层依次对输入的数据进行降采样、卷积、激活和归一化处理。因此,此处不再赘述。
同时,还需要指出的是,参阅图2,编码器中每层下采样模块还与译码器中同层的上采样模块相连接(即,同分辨率的下采样模块与上采样模块相连接)。具体的,编码器中第n层下采样模块的标准化层的输出与译码器中第n层上采样模块的标准化层的输出相连接,从而使得在译码阶段中,译码器中第n层上采样模块的标准化层输出的特征数据与编码器中第n层下采样模块的标准化层输出的特征数据拼接融合后,再作为第n-1层上采样模块的输入数据,由第n-1层上采样模块对输入数据进行译码。本领域技术人员可以理解的是,n的取值为正整数,且n的取值为:1≤n≤l。
进一步的,参见图2,编码器与译码器之间还连接有卷积模块。该卷积模块可以采用一维卷积算子来实现。从而使得在编码器中位于末层的下采样模块输出的编码特征数据作为译码器的输入数据时,编码器输出的编码特征数据先通过卷积模块进行卷积处理以进一步提取该层特征后再作为译码器的输入数据。
在构建好图2所示的神经网络之后,还需要对所构建好的神经网络进行训练,以使神经网络中各网络层的参数收敛至最优值。
具体的,在训练阶段,首先将样本数据不重叠的划分成多个数据片段,随后依次通过图2所示的神经网络中。在编码阶段,通过编码器中多层级联的下采样模块对数据片段进行逐层卷积和下采样以提取不同分辨率下的特征。同时,编码器中位于最末层的下采样模块提取到的特征通过卷积模块进行一维卷积后得到的数据作为译码器的输入数据。在译码阶段,通过译码器中多层级联的上采样模块对输入的特征进行逐层上采样和卷积,同时各层上采样模块提取得到的特征与编码端同分辨率下的特征进行拼接后作为下一层下采样模块的输入数据,以减少译码阶段降采样造成的信息损失。
最后,经译码阶段重构的特征数据与原输入数据(即,输入神经网络的数据片段)进行裁剪和拼接,并通过一维卷积将拼接后的数据分解成不同类型的噪声和莫尔斯码数据流。
进而再通过与分解的误差对上述过程的各层网络参数进行有监督的优化,从而实现对所构建的神经网络的训练,确定网络模型中的各层网络参数,最终确定用于进行音频降噪处理的网络结构。
在训练完成之后,还需要对训练好的神经网络进行验证,以进一步保证神经网络输出结果的准确性。其中,在验证阶段,对于给定的模型参数,测试音频流按照上述过程通过确定好的神经网络,并通过简单的矩阵相乘和激活函数的计算得到最终的输出。
此处,需要指出的是,在采用仿真数据集进行神经网络的验证时,首先要将原始的莫尔斯码数据按不同信噪比与各种类型的噪声数据进行随机混叠,并构建相应数量的音频文件和预设时长的数据集。如:所构建的数据集中,音频文件数为300个,总时长超过1000分钟。在所构建的数据集中,一部分作为训练数据对神经网络进行训练,一部分则作为验证数据。具体的,可以使用80%的数据作为训练数据,剩余的则作为验证数据。其中,在采用上述验证数据对神经网络进行验证时,以信噪比作为性能评价指标,验证结果表明,对不同类型的噪声可实现20db以上的信噪比的提升。
通过采用上述方式对所构建的神经网络训练并验证之后,即可采用训练好的神经网络对需要处理的音频数据进行降噪处理。其中,译码器中位于末层的上采样模块对输入的数据进行降采样处理提取相应的译码特征数据,并将同分辨率下的下采样模块提取出的编码特征数据进行拼接融合之后即可将拼接融合后的特征数据行进一步的融合和特征提取。
具体的,在译码器输出融合了同分辨率的编码特征数据的译码特征数据后,在将原始输入的音频片段与译码器最终输出的译码特征数据进行拼接,得到相应的拼接数据。进而再通过对拼接数据进行一维卷积处理,将拼接数据分解为不同类型的噪声数据和莫尔斯码数据,从而由拼接数据中提取出相应的莫尔斯码数据流。
此处,需要指出的是,在进行译码特征数据与原始输入的音频片段进行数据融合时,可以采用时域模板的方式来实现,此处不再进行赘述。
由此,本申请实施例的音频降噪处理方法,通过将待处理的音频数据划分为多个不重叠的音频片段,从而以时域信号作为输入数据。然后采用所构建的神经网络对各音频片段依次进行特征提取。其中,在采用神经网络对音频片段进行特征提取的过程中,在编码阶段,由编码器中所设置的多层级联的下采样模块对音频片段进行逐层卷积和下采样处理,以充分挖掘信号特征。在译码阶段,则由译码器中所设置的多层级联的上采样模块对输入的数据进行逐层降采样处理,并通过跨层数据的拼接(即,将同层的下采样模块输出的数据与上采样模块输出的数据进行拼接)以减少在译码阶段降维过程中的信息损失,提高了译码器重构信号的准确性。最终使得本申请实施例的音频降噪处理方法采用多输出的网络结构,充分利用了有噪声和干扰的音频数据与真实的莫尔斯码音频数据的差异,实现了基于时域信号的端到端的音频降噪方式。
相应的,基于前面任一所述的音频降噪处理方法,本申请还提供了一种音频降噪处理装置。需要指出的是,本申请实施例的音频降噪处理装置的工作原理与本申请提供的音频降噪处理方法的过程相同或相似,因此重复之处不再赘述。
同时,根据前面所述,本领域技术人员可以理解的是,本申请实施例的音频降噪处理装置主要是在N-Net型网络的基础上,构建了更深层的网络模型。并通过所构建的样本数据集对构建好的网络模型进行训练,使得网络模型收敛至最优后得到。
具体的,参见图2,本申请实施例的音频降噪处理装置100包括依次连接的输入模块110、编码器120、译码器130和拼接处理模块140。其中,输入模块110,被配置为获取当前输入的音频片段;其中,音频片段通过对待处理的音频信号进行不重叠的划分后得到。编码器120包括有多层级联的下采样模块121,多层级联的下采样模块121被配置为对音频片段进行逐层编码,得到相应的编码特征数据。编码器120中位于末层的下采样模块121与译码器130连接,并被配置为将提取到的编码特征数据输入至译码器130中。译码器130包括多层级联的上采样模块131,多层级联的上采样模块131被配置为对输入的编码特征数据进行逐层译码,得到相应的译码特征数据。
其中,编码器120中各层下采样模块121与译码器130中同层的上采样模块131相连接,并且,译码器130中各上采样模块131,还被配置为:获取同层的下采样模块121输出的编码特征数据,将同层的下采样模块121输出的编码特征数据与上采样模块131输出的译码特征数据进行拼接,并将拼接后的数据作为下一层上采样模块131的输入数据。拼接处理模块140,被配置为获取译码器130最终输出的译码特征数据,并将最终输出的译码特征数据与输入至输入模块110的音频片段进行裁剪和拼接得到拼接数据后,由拼接数据中提取出相应的莫尔斯码数据流。
在一种可能的实现方式中,下采样模块121包括依次连接的卷积层、激活层、标准化层和下采样层。其中,上采样模块131包括依次连接的上采样层、卷积层、激活层和标准化层。下采样模块121中的标准化层的输出与同层的上采样模块131中的标准化层的输出相连接。
在一种可能的实现方式中,还包括连接在编码器120与译码器130之间的卷积模块150。其中,卷积模块150,被配置为获取编码器120中的末层下采样模块121输出的编码特征数据,对获取到的编码特征数据进行一维卷积处理后,再将处理后的编码特征数据输入至译码器130。
在一种可能的实现方式中,拼接处理模块140包括相连接的时域模板层和一维卷积层。其中,时域模板层,被配置为获取译码器130最终输出的译码特征数据,并将最终输出的译码特征数据与输入至输入模块110的音频片段进行裁剪和拼接得到拼接数据。一维卷积层,被配置为由拼接数据中提取出相应的莫尔斯码数据流。
更进一步地,根据本申请的另一方面,还提供了一种音频降噪处理设备200。参阅图3,本申请实施例的音频降噪处理设备200包括处理器210以及用于存储处理器210可执行指令的存储器220。其中,处理器210被配置为执行可执行指令时实现前面任一所述的音频降噪处理方法。
此处,应当指出的是,处理器210的个数可以为一个或多个。同时,在本申请实施例的音频降噪处理设备200中,还可以包括输入装置230和输出装置240。其中,处理器210、存储器220、输入装置230和输出装置240之间可以通过总线连接,也可以通过其他方式连接,此处不进行具体限定。
存储器220作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序和各种模块,如:本申请实施例的音频降噪处理方法所对应的程序或模块。处理器210通过运行存储在存储器220中的软件程序或模块,从而执行音频降噪处理设备200的各种功能应用及数据处理。
输入装置230可用于接收输入的数字或信号。其中,信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置240可以包括显示屏等显示设备。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (6)
1.一种音频降噪处理方法,其特征在于,包括:
获取待处理的音频信号,将所述音频信号划分为多个不重叠的音频片段;
将各所述音频片段依次输入至编码器,由所述编码器中多层级联的下采样模块对所述音频片段进行逐层编码,得到相应的编码特征数据;
将所述编码器中位于末层的下采样模块提取到的编码特征数据输入至译码器,由所述译码器中多层级联的上采样模块对所述编码特征数据进行逐层译码,得到相应的译码特征数据;
其中,当前层上采样模块对输入的编码特征数据进行译码后将译码特征数据输入至对应的下一层上采样模块之前,还包括:获取同层的下采样模块输出的编码特征数据,并将同层的所述下采样模块输出的编码特征数据与译码特征数据进行拼接,并将拼接后的数据作为下一层上采样模块的输入数据;
将所述译码器中最后的上采样模块输出的译码特征数据与对应的所述音频片段进行裁剪和拼接得到拼接数据,并由所述拼接数据中提取出相应的莫尔斯码数据流;
其中,所述下采样模块对所述音频片段进行编码,得到相应的编码特征数据时,包括:
根据公式:进行;
其中,为l层下采样模块输出的编码特征数据;
为下采样算子,/>为批归一化算子,/>为l层下采样模块中进行批归一化后的输出结果,/>为激活函数,卷积函数/>为一维卷积算子;/>为l层下采样模块的偏置;
其中,所述上采样模块对输入的编码特征数据进行译码,得到相应的译码特征数据时,包括:
2.根据权利要求1所述的方法,其特征在于,由所述拼接数据中提取出相应的莫尔斯码数据流时,包括:
对所述拼接数据进行一维卷积操作,将所述拼接数据分解为不同类型的噪声和所述莫尔斯码数据流。
3.根据权利要求1至2任一项所述的方法,其特征在于,将所述编码器中位于末层的下采样模块提取到的编码特征数据输入至译码器时,还包括:
获取位于末层的下采样模块输出的编码特征数据,对所述编码特征数据进行一维卷积处理。
4.一种音频降噪处理装置,其特征在于,用于实现权利要求1至3任一项所述的音频降噪处理方法,包括依次连接的输入模块、编码器、译码器和拼接处理模块;
其中,所述输入模块,被配置为获取当前输入的音频片段;其中,所述音频片段通过对待处理的音频信号进行不重叠的划分后得到;
所述编码器包括有多层级联的下采样模块,多层级联的下采样模块被配置为对所述音频片段进行逐层编码,得到相应的编码特征数据;
所述编码器中位于末层的下采样模块与所述译码器连接,并被配置为将提取到的编码特征数据输入至所述译码器中;
所述译码器包括多层级联的上采样模块,多层级联的上采样模块被配置为对输入的所述编码特征数据进行逐层译码,得到相应的译码特征数据;
其中,所述编码器中各层下采样模块与所述译码器中同层的上采样模块相连接,且
所述译码器中各所述上采样模块,还被配置为:获取同层的下采样模块输出的编码特征数据,将同层的下采样模块输出的编码特征数据与上采样模块输出的译码特征数据进行拼接,并将拼接后的数据作为下一层上采样模块的输入数据;
所述拼接处理模块,被配置为获取所述译码器最终输出的译码特征数据,并将最终输出的译码特征数据与输入至所述输入模块的所述音频片段进行裁剪和拼接得到拼接数据后,由所述拼接数据中提取出相应的莫尔斯码数据流;
其中,所述下采样模块包括依次连接的卷积层、激活层、标准化层和下采样层;
所述上采样模块包括依次连接的上采样层、卷积层、激活层和标准化层;
其中,所述下采样模块中的标准化层的输出与同层的所述上采样模块中的标准化层的输出相连接;
其中,还包括连接在所述编码器与所述译码器之间的卷积模块;
所述卷积模块,被配置为获取所述编码器中的末层下采样模块输出的编码特征数据,对获取到的编码特征数据进行一维卷积处理后,再将处理后的编码特征数据输入至所述译码器;
其中,所述下采样模块对所述音频片段进行编码,得到相应的编码特征数据时,包括:
根据公式:进行;
其中,为l层下采样模块输出的编码特征数据;
为下采样算子,/>为批归一化算子,/>为l层下采样模块中进行批归一化后的输出结果,/>为激活函数,卷积函数/>为一维卷积算子;/>为l层下采样模块的偏置;
其中,所述上采样模块对输入的编码特征数据进行译码,得到相应的译码特征数据时,包括:
5.根据权利要求4所述的装置,其特征在于,所述拼接处理模块包括相连接的时域模板层和一维卷积层;
所述时域模板层,被配置为获取所述译码器最终输出的译码特征数据,并将最终输出的译码特征数据与输入至所述输入模块的所述音频片段进行裁剪和拼接得到拼接数据;
所述一维卷积层,被配置为由所述拼接数据中提取出相应的莫尔斯码数据流。
6.一种音频降噪处理设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现权利要求1至3中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011221097.0A CN112420065B (zh) | 2020-11-05 | 2020-11-05 | 音频降噪处理方法和装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011221097.0A CN112420065B (zh) | 2020-11-05 | 2020-11-05 | 音频降噪处理方法和装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112420065A CN112420065A (zh) | 2021-02-26 |
CN112420065B true CN112420065B (zh) | 2024-01-05 |
Family
ID=74828593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011221097.0A Active CN112420065B (zh) | 2020-11-05 | 2020-11-05 | 音频降噪处理方法和装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112420065B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113936698B (zh) * | 2021-09-26 | 2023-04-28 | 度小满科技(北京)有限公司 | 音频数据的处理方法、装置以及电子设备 |
CN115116454A (zh) * | 2022-06-15 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 音频编码方法、装置、设备、存储介质及程序产品 |
CN117935834B (zh) * | 2024-03-12 | 2024-05-28 | 深圳市声优创科技有限公司 | 一种音频智能降噪方法及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003233395A (ja) * | 2002-02-07 | 2003-08-22 | Matsushita Electric Ind Co Ltd | オーディオ信号の符号化方法及び装置、並びに符号化及び復号化システム |
KR20030072060A (ko) * | 2002-03-05 | 2003-09-13 | 한국전자통신연구원 | 디지털 오디오 부호화/복호화 장치 및 방법 |
CN101430880A (zh) * | 2007-11-07 | 2009-05-13 | 华为技术有限公司 | 一种背景噪声的编解码方法和装置 |
CN110261080A (zh) * | 2019-06-06 | 2019-09-20 | 湃方科技(北京)有限责任公司 | 基于多模态数据的异构旋转型机械异常检测方法及系统 |
CN110610717A (zh) * | 2019-08-30 | 2019-12-24 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 复杂频谱环境混合信号的分离方法 |
CN111326143A (zh) * | 2020-02-28 | 2020-06-23 | 科大讯飞股份有限公司 | 语音处理方法、装置、设备及存储介质 |
CN111540374A (zh) * | 2020-04-17 | 2020-08-14 | 杭州网易云音乐科技有限公司 | 伴奏和人声提取方法及装置、逐字歌词生成方法及装置 |
CN111564160A (zh) * | 2020-04-21 | 2020-08-21 | 重庆邮电大学 | 一种基于aewgan的语音降噪的方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5092580B2 (ja) * | 2007-06-26 | 2012-12-05 | ソニー株式会社 | デジタル信号処理装置、デジタル信号処理方法及びデジタル信号処理プログラム |
US10923141B2 (en) * | 2018-08-06 | 2021-02-16 | Spotify Ab | Singing voice separation with deep u-net convolutional networks |
US10991385B2 (en) * | 2018-08-06 | 2021-04-27 | Spotify Ab | Singing voice separation with deep U-Net convolutional networks |
WO2020041497A1 (en) * | 2018-08-21 | 2020-02-27 | 2Hz, Inc. | Speech enhancement and noise suppression systems and methods |
-
2020
- 2020-11-05 CN CN202011221097.0A patent/CN112420065B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003233395A (ja) * | 2002-02-07 | 2003-08-22 | Matsushita Electric Ind Co Ltd | オーディオ信号の符号化方法及び装置、並びに符号化及び復号化システム |
KR20030072060A (ko) * | 2002-03-05 | 2003-09-13 | 한국전자통신연구원 | 디지털 오디오 부호화/복호화 장치 및 방법 |
CN101430880A (zh) * | 2007-11-07 | 2009-05-13 | 华为技术有限公司 | 一种背景噪声的编解码方法和装置 |
CN110261080A (zh) * | 2019-06-06 | 2019-09-20 | 湃方科技(北京)有限责任公司 | 基于多模态数据的异构旋转型机械异常检测方法及系统 |
CN110610717A (zh) * | 2019-08-30 | 2019-12-24 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 复杂频谱环境混合信号的分离方法 |
CN111326143A (zh) * | 2020-02-28 | 2020-06-23 | 科大讯飞股份有限公司 | 语音处理方法、装置、设备及存储介质 |
CN111540374A (zh) * | 2020-04-17 | 2020-08-14 | 杭州网易云音乐科技有限公司 | 伴奏和人声提取方法及装置、逐字歌词生成方法及装置 |
CN111564160A (zh) * | 2020-04-21 | 2020-08-21 | 重庆邮电大学 | 一种基于aewgan的语音降噪的方法 |
Non-Patent Citations (1)
Title |
---|
利用深度全卷积编解码网络的单通道语音增强;时文华;《信号处理》;第35卷(第4期);第631-639页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112420065A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112420065B (zh) | 音频降噪处理方法和装置及设备 | |
CN110348487B (zh) | 一种基于深度学习的高光谱图像压缩方法及装置 | |
CN111868753A (zh) | 使用条件熵模型的数据压缩 | |
CN111641832B (zh) | 编码方法、解码方法、装置、电子设备及存储介质 | |
US11869221B2 (en) | Data compression using integer neural networks | |
CN111641826B (zh) | 对数据进行编码、解码的方法、装置与系统 | |
US11783511B2 (en) | Channel-wise autoregressive entropy models for image compression | |
CN113380262B (zh) | 一种基于注意力机制与扰动感知的声音分离方法 | |
CN116994564B (zh) | 一种语音数据的处理方法及处理装置 | |
CN113392732A (zh) | 一种局部放电超声信号抗干扰方法及系统 | |
CN116391191A (zh) | 用于处理滤波器组域中的音频样本的生成神经网络模型 | |
WO2023241222A1 (zh) | 音频处理方法、装置、设备、存储介质及计算机程序产品 | |
WO2023241205A1 (zh) | 音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN111048065B (zh) | 文本纠错数据生成方法及相关装置 | |
KR20200067114A (ko) | 이미지 송신 장치 | |
CN115914630B (zh) | 一种图像压缩方法、装置、设备及存储介质 | |
CN113129920B (zh) | 一种基于u型网络和音频指纹的音乐与人声分离方法 | |
US12026925B2 (en) | Channel-wise autoregressive entropy models for image compression | |
CN115148217B (zh) | 音频处理方法、装置、电子设备、存储介质及程序产品 | |
CN114663536B (zh) | 一种图像压缩方法及装置 | |
CN115062673B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN117198301A (zh) | 音频编码方法、音频解码方法、装置、可读存储介质 | |
CN116259330A (zh) | 一种语音分离方法及装置 | |
WO2023237640A1 (en) | Loss conditional training and use of a neural network for processing of audio using said neural network | |
CN114359418A (zh) | 图像处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |