CN115565542A - 一种基于纯时域信息的实时语音去噪方法和装置以及设备 - Google Patents
一种基于纯时域信息的实时语音去噪方法和装置以及设备 Download PDFInfo
- Publication number
- CN115565542A CN115565542A CN202211179065.8A CN202211179065A CN115565542A CN 115565542 A CN115565542 A CN 115565542A CN 202211179065 A CN202211179065 A CN 202211179065A CN 115565542 A CN115565542 A CN 115565542A
- Authority
- CN
- China
- Prior art keywords
- frame
- time domain
- voice
- neural network
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000013528 artificial neural network Methods 0.000 claims abstract description 70
- 230000009467 reduction Effects 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000005236 sound signal Effects 0.000 claims abstract description 5
- 230000037433 frameshift Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 12
- 238000004422 calculation algorithm Methods 0.000 abstract description 5
- 238000005070 sampling Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 7
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Noise Elimination (AREA)
Abstract
本发明公开了一种基于纯时域信息的实时语音去噪方法和装置以及设备。其中,所述方法包括:提供一GRU神经网络,该GRU神经网络模拟频域音频信号的处理过程对输入的时域音频信号进行时域音频信号提取、预处理、特征提取、信号重建;该GRU神经网络的训练流程包括:获取原始带噪时域语音信号,时域语音信号时域长度为5秒及以上;对该原始带噪时域语音信号进行预处理生成若干语音帧;将若干语音帧输入GRU神经网络训练输出降噪后的语音帧;对若干降噪后的语音帧进行重建生成去噪时域语音信号;利用该去噪时域语音信号计算误差,利用误差控制GRU神经网络收敛得网络参数,再利用该网络参数对GRU神经网络重构。本发明能够在降低算法复杂度的同时保证去噪的效果。
Description
技术领域
本发明涉及去噪技术领域,尤其涉及一种基于纯时域信息的实时语音去噪方法和装置以及设备。
背景技术
目前神经网络已成为语音去噪的主流算法。目前主流的实时去噪方案需要对输入的语音信号进行复杂的预处理,在实际应用中难以实现实时降噪。而基于时域信息的模型尺寸大较大,实时性难以保证。引起这样问题的主要原因在于:现有的基于神经网络的实时语音降噪方案大都使用频域方案,需要先将输入的语音信号进行分帧利用FFT将时域信号转化为频谱图,在实际应用中增加了实现实时降噪的复杂度。同时,在训练神经网络模型时,如果使用频域信息作为模型的损失函数,那么当输入的帧长或者采样率发生变化时,频域信息所代表的含义将会发生很大变化,原有损失函数很有可能无法使用。针对以上两点问题,申请人提出一种基于纯时域信息的实时语音去噪方法和装置以及设备。
发明内容
有鉴于此,本发明的目的在于提出一种基于纯时域信息的实时语音去噪方法和装置以及设备,能够在降低算法复杂度的同时保证去噪的效果。
根据本发明的一个方面,提供一种基于纯时域信息的实时语音去噪方法,包括:提供一GRU神经网络,该GRU神经网络设有一个参数量H2模拟频域音频信号的处理过程;该参数量为N*N/2的矩阵,N代表帧长,使得每一语音帧输入网络时进行Y=H2*X的计算,其中X代表输入的语音帧,该参数量H2通过训练神经网络收敛之后获得;该GRU神经网络的训练流程包括:获取原始带噪时域语音信号,时域语音信号时域长度为5秒及以上;对该原始带噪时域语音信号进行预处理生成若干语音帧;将若干语音帧输入GRU神经网络训练输出若干降噪后的语音帧;对若干降噪后的语音帧进行重建生成去噪时域语音信号;利用该去噪时域语音信号计算误差,利用误差控制GRU神经网络收敛得到网络参数,再利用该网络参数对GRU神经网络进行重构。
根据本发明的另一个方面,提供一种基于纯时域信息的实时语音去噪装置,包括:音频提取模块、音频预处理模块、神经网络模块、信号重建模块和神经网络优化模块;所述音频提取模块,获取原始带噪时域语音信号,时域语音信号时域长度为5秒及以上;所述音频预处理模块,用于对原始带噪时域语音信号进行预处理生成若干语音帧;所述神经网络模块,用于将若干语音帧输入GRU神经网络训练输出若干降噪后的语音帧;所述信号重建模块,用于对若干降噪后的语音帧进行重建生成去噪时域语音信号;所述神经网络优化模块,用于利用该去噪时域语音信号计算误差,利用误差控制GRU神经网络收敛得到网络参数,再利用该网络参数对GRU神经网络进行重构。
根据本发明的又一个方面,提供一种基于纯时域信息的实时语音去噪设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一项所述的基于纯时域信息的实时语音去噪方法。
根据本发明的再一个方面,提供一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一项所述的基于纯时域信息的实时语音去噪方法。
可以发现,以上方案的输出信号以及输入信号都为时域信号,对于不同的输入参数均可使用相同的损失函数。无论是模型的训练还是实际应用都得到了便利。现有的时域语音去噪方案大都使用TCN作为主干网络,通过多个一维卷积模块对带噪音频进行处理,这一方法导致了模型的参数过大,在实际应用特别是移动设备上难以做到实时。本方案使用GRU作为主干网络,充分利用了语音信号的时序信息的同时极大减少了模型的参数,从而在只使用时域信息的前提下,既保证了去噪效果又能够做到实时。本发明方案在不影响降噪效果的前提下,使用纯时域波形进行去噪,无需对输入和输出的信号进行复杂的预处理,代码易于维护。整个模型大小约为700KB,整在设备端的实时率为0.5,可用于性能较低的终端设备。同时,该方案通过设置训练时的block_shift,采样率等参数应用于不同的场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明基于纯时域信息的实时语音去噪方法的神经网络训练方法一实施例的流程示意图;
图2是本发明基于纯时域信息的实时语音去噪方法的GRU神经网络结构图;
图3是本发明基于纯时域信息的实时语音去噪方法的语音帧拼接示意图;
图4是本发明基于纯时域信息的实时语音去噪方法的GRU层结构图;
图5是本发明基于纯时域信息的实时语音去噪方法重构的GRU神经网络结构
图6是本发明基于纯时域信息的实时语音去噪方法的神经网络训练方法另一实施例的流程示意图;
图7是本发明基于纯时域信息的实时语音去噪装置一实施例的结构示意图;
图8是本发明基于纯时域信息的实时语音去噪装置另一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种基于纯时域信息的实时语音去噪方法,能够在降低算法复杂度的同时保证去噪的效果。
请参见图1,图1是本发明基于纯时域信息的实时语音去噪方法的神经网络训练方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:
S101:获取原始带噪时域语音信号,时域语音信号时域长度为5秒及以上;
在本实施例中,在训练时,训练所用的语音信号长度需要足够长,一般采集的原始带噪时域语音信号为5秒以上。这是因为在实际应用中,通话都会持续一段时间,这样可以让训练的数据与实际情况更接近。
S102:对该原始带噪时域语音信号进行预处理生成若干语音帧;
在本实施例中,原始带噪时域语音信号进行分帧,得到大小为frame_num*frame_len的语音帧;其中
式中,frame_num表示帧编码;frame_len表示帧长度;audio_len表示音频长度;frame_shift表示帧偏移量;其中frame_shift mod frame_len=0。frame_len必须是frame_shift的整数倍,具体的帧长和帧移可以根据实际应用的需要设置。
S103:将若干语音帧输入GRU神经网络训练输出若干降噪后的语音帧;
在本实施例中,GRU神经网络的网络结构请参阅图2,整个神经网络通过一个kernel_size为1通道数为输入帧长的一半的1维卷积层模拟实数信号的FFT过程,该过程如下:假设对输入的每一帧语音X计算DFT,每一帧的输出Y可以写作Y=H*X,H是一个N*N/2的矩阵,N代表帧长,模拟的过程就是在模型中放入一个参数量与H相同的模块H2,该模块的输出也可写作Y=H2*X,唯一的不同就是H的参数是固定的,而H2的参数是需要通过训练神经网络得到。再通过一个dense层将信号的维度变化为GRU的单元数,GRU的单元数一般设置为帧长的1/4或者128。经过3个GRU层后通过一个dense层将信号的维度变回输入帧长的一半,将输出通过一个激活函数得到模拟的频域增益。再将该增益与经过一维卷积后的输入信号相乘得到模拟的去噪后频谱。最后通过一个kernel_size为1通道数为输入帧长的1维卷积层模拟实数信号的IFFT过程,该过程为上面所述的模拟实数信号的FFT过程的逆过程,此处不再赘述。现有的时域语音去噪方案大都使用TCN作为主干网络,通过多个一维卷积模块对带噪音频进行处理,这一方法导致了模型的参数过大,在实际应用特别是移动设备上难以做到实时。该方案使用GRU作为主干网络,充分利用了语音信号的时序信息的同时极大减少了模型的参数,从而在只使用时域信息的前提下,既保证了去噪效果又能够做到实时。为防止在训练中出现的各种问题,在整个网络中加入残差连接以及layernorm防止网络出现过拟合。同时残差连接也可以防止出现梯度消失问题,加快网络收敛速度。除此之外,GRU作为RNN网络可以充分利用到输入信号的之前的信息并可以处理任意长度的输入信号,在处理时域信号中有较大优势,相比于LSTM网络,GRU的参数更少速度更快,可以在不影响模型效果的同时提高模型在实际应用中的运行速度。
S104:对若干降噪后的语音帧进行重建生成去噪时域语音信号;
在本实施例中,采用Overlap and Add方法重建信号,重建后的信号即为建模后得到的干净音频。训练模型时,将音频分帧得到frame_num*frame_len的语音帧输入神经网络模型;经过模型处理后输出降噪后的语音帧,通过overlap_and_add函数对得到的降噪后的语音帧进行重建,请参阅图3,使降噪后的语音帧与输入的语音帧保持相同的长度,将该输出与干净音频计算loss来训练模型。
S105:利用该去噪时域语音信号计算误差,利用误差控制GRU神经网络收敛得到网络参数,再利用该网络参数对GRU神经网络进行重构。
在本实施例中,网络收敛后,保存得到的网络参数,对网络进行重构。重构时充分利用GRU的特性,请参阅图4,将GRU输出的Ht也作为模型的输出保存下来,作为下一帧的输入H。重构后的模型结构请参阅图5。重构的方式具体如下,在本实施例中采用tensorflow训练的,训练完成后将参数保存到.h5文件中,之后再用tensorflow搭建一个跟训练时的模型相同的模型,将输入信号的维度设置为1*frame_len。导入保存好的参数文件,之后通过tensorflow自带的tfliteconvert或者tf2onnx函数将.h5文件转换为可运用到设备端的.tflite文件或者.onnx文件。
通过上述训练后,实际使用的降噪过程如下:
设置block_shift个数,即采样点个数,每帧语音帧有若干采样点,这需要根据语音帧的不同类型而定,一般而言一帧包含1024个采样点;设置frame_len,即输入帧长度;设置frame_shift,即帧偏移量;请参阅图3,当输出第t个时间点降噪后的语音帧,该时刻的语音帧与第t-1个时间点降噪后的语音帧以及第t-2个时间点降噪后的语音帧出现重叠,需要将重叠的部分进行叠加;该叠加后的第t个时间点的语音帧输入GRU神经网络进行前向计算,总共对模型进行frame_len/block_shift次前向计算。每一次输入的音频较前一次移动block_shift个采样点。将每一次输出的状态作为下一次的输入状态,输出的音频进行叠加,每进行一次前向操作保存block_shift个采样点,最后得到与输入长度相同的输出。对于每一帧输入的音频进行相同的操作即可实现语音的实时去噪。
举例说明如下:假设设置输入模型的帧长为640个采样点,帧移为640/4=160个采样点,那么t时刻的输出就会和t-1,t-2,t-3时刻的输出都会有重叠,需要将这些部分进行叠加。在实际应用中,设备的帧长可为帧移的任意整数倍,假设语音数据采集设备一次采集320个采样点,即那么frame_len为320,设置帧移block_shift为160个采样点,语音数据采集设备每采集依次就是做320/160=2次前向计算,每一次前向计算输入模型共640个采样点。在实际应用中需要设置一个大小为训练帧长的寄存器,假设设备端输入第640到第960个采样点,那么就是将第160到第800个采样点和上一次的输出状态输入模型做一次前向计算并保存输出状态,再将第320到第960个采样点和上一步的输出状态输入模型做一次前向计算。
可以发现,以上方案的输出信号以及输入信号都为时域信号,对于不同的输入参数均可使用相同的损失函数。无论是模型的训练还是实际应用都得到了便利。现有的时域语音去噪方案大都使用TCN作为主干网络,通过多个一维卷积模块对带噪音频进行处理,这一方法导致了模型的参数过大,在实际应用特别是移动设备上难以做到实时。本方案使用GRU作为主干网络,充分利用了语音信号的时序信息的同时极大减少了模型的参数,从而在只使用时域信息的前提下,既保证了去噪效果又能够做到实时。本发明方案在不影响降噪效果的前提下,使用纯时域波形进行去噪,无需对输入和输出的信号进行复杂的预处理,代码易于维护。整个模型大小约为700KB,整在设备端的实时率为0.5,可用于性能较低的终端设备。同时,该方案通过设置训练时的block_shift,采样率等参数应用于不同的场景。
请参见图6,图6是本发明基于纯时域信息的实时语音去噪方法的神经网络训练方法另一实施例的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图6所示的流程顺序为限。如图6所示,该方法包括如下步骤:
S201:获取原始带噪时域语音信号,时域语音信号时域长度为5秒及以上;
在本实施例中,可如上述S101所述,此处不再赘述。
S202:对该原始带噪时域语音信号进行预处理生成若干语音帧;
在本实施例中,可如上述S102所述,此处不再赘述。
S203:将若干语音帧输入GRU神经网络训练输出若干降噪后的语音帧;
在本实施例中,可如上述S103所述,此处不再赘述。
S204:对若干降噪后的语音帧进行重建生成去噪时域语音信号;
在本实施例中,可如上述S204所述,此处不再赘述。
S205:利用该去噪时域语音信号计算误差,利用误差控制GRU神经网络收敛得到网络参数,再利用该网络参数对GRU神经网络进行重构。
在本实施例中,该步骤先获取原始无噪时域语音信号,利用该原始无噪时域语音信号与去噪时域语音信号计算平均绝对误差;利用该平均绝对误差控制GRU神经网络收敛得到网络参数,再利用该网络参数对GRU神经网络进行重构。重构的方式具体如下,在本实施例中采用tensorflow训练的,训练完成后将参数保存到.h5文件中,之后再用tensorflow搭建一个跟训练时的模型相同的模型,将输入信号的维度设置为1*frame_len。导入保存好的参数文件,之后通过tensorflow自带的tfliteconvert或者tf2onnx函数将.h5文件转换为可运用到设备端的.tflite文件或者.onnx文件。其他可如上述步骤105所述,此处不再赘述。
本实施例与上一实施例的区别在于:叠加后得到的与输入语音长度相同的输出。由于输入输出的全都是时域波形,所以不需要任何复杂的loss计算,只需要使用MAE作为loss函数。通过计算的loss调整模型的参数直到收敛。
本发明还提供一种基于纯时域信息的实时语音去噪装置,能够在降低算法复杂度的同时保证去噪的效果。
请参见图7,图7是本发明基于纯时域信息的实时语音去噪装置一实施例的结构示意图。本实施例中,该基于纯时域信息的实时语音去噪装置包括:
音频提取模块M1、音频预处理模块M2、神经网络模块M3、信号重建模块M4和神经网络优化模块M5;
所述音频提取模块M1,获取原始带噪时域语音信号,时域语音信号时域长度为5秒及以上;
所述音频预处理模块M2,用于对原始带噪时域语音信号进行预处理生成若干语音帧;
所述神经网络模块M3,用于将若干语音帧输入GRU神经网络训练输出若干降噪后的语音帧;
所述信号重建模块M4,用于对若干降噪后的语音帧进行重建生成去噪时域语音信号;
所述神经网络优化模块M5,用于利用该去噪时域语音信号计算误差,利用误差控制GRU神经网络收敛得到网络参数,再利用该网络参数对GRU神经网络进行重构。
可选地,该音频预处理模块M2,可以具体用于:
原始带噪时域语音信号进行分帧,得到大小为frame_num*frame_len的语音帧;其中
式中,frame_num表示帧编码;frame_len表示帧长度;audio_len表示音频长度;frame_shift表示帧偏移量;其中frame_shift mod frame_len=0。。
可选地,该神经网络优化模块M5,可以具体用于:
以输出第t个时间点降噪后的语音帧的帧长作为窗口长度在预处理生成的语音帧上移动block_shift个采样点得到第t-1时间点的语音帧,该block_shift mod frame_len=0;第t个时间点语音帧与第t-1时间点的语音帧的重叠部分进行叠加得到叠加后的第t-1时间点的语音帧;该叠加后的第t-1时间点的语音帧输入GRU神经网络进行前向计算,总共对模型进行frame_len/block_shift次前向计算。
请参见图8,图8是本发明基于纯时域信息的实时语音去噪装置另一实施例的结构示意图。区别于上一实施例,本实施例所述基于纯时域信息的实时语音去噪装置还包括纯净音频模块M6。
该纯净音频模块M6,用于获取原始无噪时域语音信号,利用该原始无噪时域语音信号与去噪时域语音信号计算平均绝对误差;利用该平均绝对误差控制GRU神经网络收敛得到网络参数,再利用该网络参数对GRU神经网络进行重构。
该基于纯时域信息的实时语音去噪装置的各个单元模块可分别执行上述方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。
本发明又提供一种基于纯时域信息的实时语音去噪设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的基于纯时域信息的实时语音去噪方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明再提供一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
可以发现,以上方案的输出信号以及输入信号都为时域信号,对于不同的输入参数均可使用相同的损失函数。无论是模型的训练还是实际应用都得到了便利。现有的时域语音去噪方案大都使用TCN作为主干网络,通过多个一维卷积模块对带噪音频进行处理,这一方法导致了模型的参数过大,在实际应用特别是移动设备上难以做到实时。本方案使用GRU作为主干网络,充分利用了语音信号的时序信息的同时极大减少了模型的参数,从而在只使用时域信息的前提下,既保证了去噪效果又能够做到实时。本发明方案在不影响降噪效果的前提下,使用纯时域波形进行去噪,无需对输入和输出的信号进行复杂的预处理,代码易于维护。整个模型大小约为700KB,整在设备端的实时率为0.5,可用于性能较低的终端设备。同时,该方案通过设置训练时的block_shift,采样率等参数应用于不同的场景。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于纯时域信息的实时语音去噪方法,其特征在于,包括:
提供一GRU神经网络,该GRU神经网络设有一个参数量H2模拟频域音频信号的处理过程;该参数量为N*N/2的矩阵,N代表帧长,使得每一语音帧输入网络时进行Y=H2*X的计算,其中X代表输入的语音帧,该参数量H2通过训练神经网络收敛之后获得;
该GRU神经网络的训练流程包括:
获取原始带噪时域语音信号,时域语音信号时域长度为5秒及以上;
对该原始带噪时域语音信号进行预处理生成若干语音帧;
将若干语音帧输入GRU神经网络训练输出若干降噪后的语音帧;
对若干降噪后的语音帧进行重建生成去噪时域语音信号;
利用该去噪时域语音信号计算误差,利用误差控制GRU神经网络收敛得到网络参数,再利用该网络参数对GRU神经网络进行重构。
3.如权利要求2所述的基于纯时域信息的实时语音去噪方法,其特征在于,所述将预处理后的语音帧输入GRU神经网络进行训练输出降噪后的语音帧,进一步包括:
训练模型时,在上一步中将音频分帧得到frame_num*frame_len的语音帧输入神经网络模型;经过模型处理后输出降噪后的语音帧,通过overlap_and_add函数对得到的降噪后的语音帧进行重建,使降噪后的语音帧与输入的语音帧保持相同的长度,将该输出与干净音频计算loss来训练模型。
4.如权利要求1所述的基于纯时域信息的实时语音去噪方法,其特征在于,所述利用该去噪时域语音信号计算误差,利用误差控制GRU神经网络收敛得到网络参数,再利用该网络参数对GRU神经网络进行重构,包括:
获取原始无噪时域语音信号,利用该原始无噪时域语音信号与去噪时域语音信号计算平均绝对误差;利用该平均绝对误差控制GRU神经网络收敛得到网络参数,再利用该网络参数对GRU神经网络进行重构。
5.一种基于纯时域信息的实时语音去噪装置,其特征在于,包括:
音频提取模块、音频预处理模块、神经网络模块、信号重建模块和神经网络优化模块;
所述音频提取模块,获取原始带噪时域语音信号,时域语音信号时域长度为5秒及以上;
所述音频预处理模块,用于对原始带噪时域语音信号进行预处理生成若干语音帧;
所述神经网络模块,用于将若干语音帧输入GRU神经网络训练输出若干降噪后的语音帧;
所述信号重建模块,用于对若干降噪后的语音帧进行重建生成去噪时域语音信号;
所述神经网络优化模块,用于利用该去噪时域语音信号计算误差,利用误差控制GRU神经网络收敛得到网络参数,再利用该网络参数对GRU神经网络进行重构。
7.如权利要求6所述的基于纯时域信息的实时语音去噪装置,其特征在于,所述神经网络优化模块,具体用于:
训练模型时,在上一步中将音频分帧得到frame_num*frame_len的语音帧输入神经网络模型;经过模型处理后输出降噪后的语音帧,通过overlap_and_add函数对得到的降噪后的语音帧进行重建,使降噪后的语音帧与输入的语音帧保持相同额长度,将该输出与干净音频计算loss来训练模型。
8.如权利要求5所述的基于纯时域信息的实时语音去噪装置,其特征在于,所述基于纯时域信息的实时语音去噪装置,还包括:
纯净音频模块;
所述纯净音频模块,具体用于获取原始无噪时域语音信号,利用该原始无噪时域语音信号与去噪时域语音信号计算平均绝对误差;利用该平均绝对误差控制GRU神经网络收敛得到网络参数,再利用该网络参数对GRU神经网络进行重构。
9.一种基于纯时域信息的实时语音去噪设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的基于纯时域信息的实时语音去噪方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的基于纯时域信息的实时语音去噪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211179065.8A CN115565542A (zh) | 2022-09-27 | 2022-09-27 | 一种基于纯时域信息的实时语音去噪方法和装置以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211179065.8A CN115565542A (zh) | 2022-09-27 | 2022-09-27 | 一种基于纯时域信息的实时语音去噪方法和装置以及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115565542A true CN115565542A (zh) | 2023-01-03 |
Family
ID=84743175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211179065.8A Pending CN115565542A (zh) | 2022-09-27 | 2022-09-27 | 一种基于纯时域信息的实时语音去噪方法和装置以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115565542A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117251717A (zh) * | 2023-11-17 | 2023-12-19 | 成都立思方信息技术有限公司 | 多个不同信号同步信道化提取方法、装置、设备及介质 |
-
2022
- 2022-09-27 CN CN202211179065.8A patent/CN115565542A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117251717A (zh) * | 2023-11-17 | 2023-12-19 | 成都立思方信息技术有限公司 | 多个不同信号同步信道化提取方法、装置、设备及介质 |
CN117251717B (zh) * | 2023-11-17 | 2024-02-09 | 成都立思方信息技术有限公司 | 多个不同信号同步信道化提取方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10580430B2 (en) | Noise reduction using machine learning | |
CN113436643B (zh) | 语音增强模型的训练及应用方法、装置、设备及存储介质 | |
US20210343305A1 (en) | Using a predictive model to automatically enhance audio having various audio quality issues | |
CN110047044B (zh) | 一种图像处理模型的构建方法、装置及终端设备 | |
CN111508519B (zh) | 一种音频信号人声增强的方法及装置 | |
CN106601266A (zh) | 回声消除方法、装置及系统 | |
CN115565542A (zh) | 一种基于纯时域信息的实时语音去噪方法和装置以及设备 | |
CN112565977B (zh) | 高频信号重建模型的训练方法和高频信号重建方法及装置 | |
US11393443B2 (en) | Apparatuses and methods for creating noise environment noisy data and eliminating noise | |
CN112259116A (zh) | 一种音频数据的降噪方法、装置、电子设备及存储介质 | |
CN117174105A (zh) | 一种基于改进型深度卷积网络的语音降噪与去混响方法 | |
CN112201272A (zh) | 音频数据降噪的方法、装置、设备及存储介质 | |
CN117496990A (zh) | 语音去噪方法、装置、计算机设备及存储介质 | |
CN111402905A (zh) | 音频数据恢复方法、装置及蓝牙设备 | |
Miotello et al. | Deep prior-based audio inpainting using multi-resolution harmonic convolutional neural networks | |
US20210166128A1 (en) | Computer-implemented method and device for generating frequency component vector of time-series data | |
WO2021184350A1 (zh) | 一种基于神经网络的网格化磁共振图像重建方法和装置 | |
CN114898767A (zh) | 基于U-Net的机载语音噪音分离方法、设备及介质 | |
CN105957534A (zh) | 自适应滤波方法和自适应滤波器 | |
KR102153786B1 (ko) | 선택 유닛을 이용한 이미지 처리 방법 및 장치 | |
CN112700788A (zh) | 回声消除中回声路径的建模方法、装置、设备及存储介质 | |
CN116248229B (zh) | 一种面向实时语音通讯的丢包补偿方法 | |
CN113940686B (zh) | 一种ecg信号的工频滤除方法、装置、电子设备及存储介质 | |
CN117894306B (zh) | 一种语音处理方法、装置、计算机设备及存储介质 | |
US20240185875A1 (en) | System and method for replicating background acoustic properties using neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |