CN115588437A - 语音增强方法、装置、设备和存储介质 - Google Patents

语音增强方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN115588437A
CN115588437A CN202211592701.XA CN202211592701A CN115588437A CN 115588437 A CN115588437 A CN 115588437A CN 202211592701 A CN202211592701 A CN 202211592701A CN 115588437 A CN115588437 A CN 115588437A
Authority
CN
China
Prior art keywords
neural network
network
voice
convolutional
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211592701.XA
Other languages
English (en)
Other versions
CN115588437B (zh
Inventor
黄文琦
林全郴
梁凌宇
戴珍
白昱阳
赵翔宇
郭尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Power Grid Digital Grid Research Institute Co Ltd
Original Assignee
Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern Power Grid Digital Grid Research Institute Co Ltd filed Critical Southern Power Grid Digital Grid Research Institute Co Ltd
Priority to CN202211592701.XA priority Critical patent/CN115588437B/zh
Publication of CN115588437A publication Critical patent/CN115588437A/zh
Application granted granted Critical
Publication of CN115588437B publication Critical patent/CN115588437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Error Detection And Correction (AREA)

Abstract

本申请涉及一种语音增强方法、装置、设备、存储介质和计算机程序产品。所述方法包括:首先,获取待处理的第一语音,第一语音含有噪声,接着,将第一语音输入至预先得到的语音增强网络中,其中,语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器,其次,通过分析滤波器对第一语音进行短时傅里叶变换处理,得到原始傅里叶频谱,进而,通过混合神经网络对原始傅里叶频谱进行特征提取处理,得到特征数据,特征数据包括增强的傅里叶频谱或者复数掩蔽,最后,通过合成滤波器对特征数据进行短时逆傅里叶变换处理,得到去噪后的第二语音,通过本方法,可以得到去噪增强后的语音,提高语音识别能力。

Description

语音增强方法、装置、设备和存储介质
技术领域
本申请涉及语音增强技术领域,特别是涉及一种语音增强方法、装置、设备和存储介质。
背景技术
在人们的日常生活中,存在着许多的噪声,例如汽车鸣笛声、狗叫声、装修声等等,而当我们需要对重要语音进行识别的时候,这些噪声干扰可能会严重影响到语音识别的能力,使得我们无法识别出想要得到的语音信息。
因此,在噪声环境下语音识别能力差的问题亟需解决。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高语音识别能力的语音增强方法、装置、设备和存储介质。
第一方面,本申请提供了一种语音方法。该方法包括:
获取待处理的第一语音,第一语音含有噪声;将第一语音输入至预先得到的语音增强网络中,其中,语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器;通过分析滤波器对第一语音进行短时傅里叶变换处理,得到原始傅里叶频谱;通过混合神经网络对原始傅里叶频谱进行特征提取处理,得到特征数据,特征数据包括增强的傅里叶频谱或者复数掩蔽;通过合成滤波器对特征数据进行短时逆傅里叶变换处理,得到去噪后的第二语音。
在其中一个实施例中,该混合神经网络包括级联的卷积网络编码器、对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器,通过混合神经网络对原始傅里叶频谱进行特征提取处理,得到特征数据,包括:通过卷积网络编码器对原始傅里叶频谱进行编码处理,得到第一特征序列;通过对偶循环神经网络对第一特征序列进行特征提取处理,得到第二特征序列;通过对偶注意力机制网络对第二特征序列进行特征提取处理,得到第三特征序列;通过卷积网络解码器对第三特征序列进行解码处理,得到特征数据。
在其中一个实施例中,该卷积网络编码器包括级联的多个卷积层,通过卷积网络编码器对原始傅里叶频谱进行编码处理,得到第一特征序列,包括:对于各卷积层,根据原始傅里叶频谱确定卷积层的输入,并对输入进行卷积处理,得到卷积层的输出;将多个卷积层中最后一个卷积层的输出作为第一特征序列。
在其中一个实施例中,根据原始傅里叶频谱确定卷积层的输入,包括:若卷积层为多个卷积层中的第1个卷积层,则将原始傅里叶频谱作为卷积层的输入;若卷积层不为多个卷积层中的第1个卷积层,则将原始傅里叶频谱和上一卷积层的输出进行拼接处理,并将拼接处理得到的序列作为卷积层的输入。
在其中一个实施例中,该对偶循环神经网络包括时域循环神经网络和频域循环神经网络,通过对偶循环神经网络对第一特征序列进行特征提取处理,得到第二特征序列,包括:将第一特征序列中各个子带对应的特征信息输入至时域循环神经网络中,并将第一特征序列中各个时间点对应的特征信息输入至频域循环神经网络,以基于时域循环神经网络和频域循环神经网络的输出得到第二特征序列。
在其中一个实施例中,该对偶注意力机制网络包括时域注意力神经网络和频域注意力神经网络,通过对偶注意力机制网络对第二特征序列进行特征提取处理,得到第三特征序列,包括:将第二特征序列中各个子带对应的特征信息输入至时域注意力神经网络中,并将第二特征序列中各个时间点对应的特征信息输入至频域注意力神经网络,以基于时域注意力神经网络和频域注意力神经网络的输出得到第三特征序列。
在其中一个实施例中,该卷积网络解码器包括级联的多个逆卷积层,通过卷积网络解码器对第三特征序列进行解码处理,得到特征数据,包括:将第三特征序列输入至多个逆卷积层,以通过多个逆卷积层对第三特征序列进行逆卷积处理,得到特征数据。
在其中一个实施例中,该方法还包括:获取训练集,训练集包括多个训练样本,各训练样本包括含噪声的训练语音和不含噪声的训练语音;利用训练集对初始语音增强网络进行训练,得到语音增强网络。
第二方面,本申请还提供了一种语音装置。该装置包括:
获取模块,用于获取待处理的第一语音,第一语音含有噪声;
输入模块,用于将第一语音输入至预先得到的语音增强网络中,其中,语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器;
变换模块,用于通过分析滤波器对第一语音进行短时傅里叶变换处理,得到原始傅里叶频谱;
提取模块,用于通过混合神经网络对原始傅里叶频谱进行特征提取处理,得到特征数据,特征数据包括增强的傅里叶频谱或者复数掩蔽;
逆变换模块,用于通过合成滤波器对特征数据进行短时逆傅里叶变换处理,得到去噪后的第二语音。
在其中一个实施例中,该混合神经网络包括级联的卷积网络编码器、对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器,该提取模块包括:
编码单元,用于通过卷积网络编码器对原始傅里叶频谱进行编码处理,得到第一特征序列;
第一提取单元,用于通过对偶循环神经网络对第一特征序列进行特征提取处理,得到第二特征序列;
第二提取单元,用于通过对偶注意力机制网络对第二特征序列进行特征提取处理,得到第三特征序列;
解码单元,用于通过卷积网络解码器对第三特征序列进行解码处理,得到特征数据。
在其中一个实施例中,该卷积网络编码器包括级联的多个卷积层,该编码单元包括:
第一编码子单元,用于对于各卷积层,根据原始傅里叶频谱确定卷积层的输入,并对输入进行卷积处理,得到卷积层的输出;
第二编码子单元,用于将多个卷积层中最后一个卷积层的输出作为第一特征序列。
在其中一个实施例中,该第一编码子单元,具体用于:若卷积层为多个卷积层中的第1个卷积层,则将原始傅里叶频谱作为卷积层的输入;若卷积层不为多个卷积层中的第1个卷积层,则将原始傅里叶频谱和上一卷积层的输出进行拼接处理,并将拼接处理得到的序列作为卷积层的输入。
在其中一个实施例中,该对偶循环神经网络包括时域循环神经网络和频域循环神经网络,该第一提取单元,具体用于:将第一特征序列中各个子带对应的特征信息输入至时域循环神经网络中,并将第一特征序列中各个时间点对应的特征信息输入至频域循环神经网络,以基于时域循环神经网络和频域循环神经网络的输出得到第二特征序列。
在其中一个实施例中,该对偶注意力机制网络包括时域注意力神经网络和频域注意力神经网络,该第二提取单元,具体用于:将第二特征序列中各个子带对应的特征信息输入至时域注意力神经网络中,并将第二特征序列中各个时间点对应的特征信息输入至频域注意力神经网络,以基于时域注意力神经网络和频域注意力神经网络的输出得到第三特征序列。
在其中一个实施例中,该解码单元,具体用于:将第三特征序列输入至多个逆卷积层,以通过多个逆卷积层对第三特征序列进行逆卷积处理,得到特征数据
在其中一个实施例中,该装置还包括训练模块,该训练模块,用于获取训练集,训练集包括多个训练样本,各训练样本包括含噪声的训练语音和不含噪声的训练语音;利用训练集对初始语音增强网络进行训练,得到语音增强网络。
第三方面,本申请实施例提供一种设备,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面中任一所述的步骤。
第四方面,本申请实施例提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面中任一所述的步骤。
上述语音增强方法、装置、设备、存储介质和计算机程序产品,首先,获取待处理的第一语音,第一语音含有噪声,接着,将第一语音输入至预先得到的语音增强网络中,其中,语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器,其次,通过分析滤波器对第一语音进行短时傅里叶变换处理,得到原始傅里叶频谱,进而,通过混合神经网络对原始傅里叶频谱进行特征提取处理,得到特征数据,特征数据包括增强的傅里叶频谱或者复数掩蔽,最后,通过合成滤波器对特征数据进行短时逆傅里叶变换处理,得到去噪后的第二语音,通过本方法,可以得到去噪增强后的语音,提高语音识别能力。
附图说明
图1为一个实施例中语音增强方法的流程示意图;
图2为一个实施例中语音增强网络的结构框图;
图3为一个实施例中特征提取方法的流程示意图;
图4为一个实施例中得到第一特征序列方法的流程示意图;
图5为一个实施例中训练语音增强网络方法的流程示意图;
图6为另一个实施例中语音增强方法的流程示意图;
图7为一个实施例中语音增强装置的结构框图;
图8为另一个实施例中语音增强装置的结构框图;
图9为一个实施例中计算机设备为服务器的内部结构图;
图10为一个实施例中计算机设备为终端的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在人们的日常生活中,存在着许多的噪声,例如汽车鸣笛声、狗叫声、装修声等等,这些噪声或多或少都会影响到我们的生活,比如当我们打电话时,噪音使得听筒传出来的声音不够清晰;当学生参加听力考试时,噪音使得广播的声音不够清晰等等,尤其当我们需要对重要语音进行识别的时候,这些噪声干扰可能会严重影响到语音识别的能力,使得我们无法识别出想要得到的语音信息。虽然现在存在大量的听力助理设备,但这些设备复杂繁重,并不能从根源上解决噪音的干扰,并且去噪效果差异大,因此,在噪声环境下语音识别能力差的问题亟需解决。
本申请实施例提供的语音增强方法,其执行主体可以是一种计算机设备,该计算机设备可以是服务器,也可以是终端,在该计算机设备为服务器的情况下,本申请实施例提供的语音增强方法可以基于服务器与终端间的交互实现。
在一个实施例中,如图1所示,提供了一种语音增强方法,包括以下步骤:
步骤101、获取待处理的第一语音。
其中,第一语音含有噪声。第一语音指的是噪声与干净语音的混合语音,该噪声包括:交通噪声、工业噪声、建筑施工噪声、生活噪声等等,在此不做限制。
获取待处理的第一语音,指的是获取在实际应用场景中所采集到的语音,例如采集学校教室里教学场景下的语音、采集办公场景里开会会议中的语音、采集路边路人交谈时的语音等,这些语音由于环境的复杂,其中都含有噪声。
在一种可能实现的方式中,获取第一语音的设备包括录音机、手机、摄像机或者专业的音频采集器等等。
步骤102、将第一语音输入至预先得到的语音增强网络中。
其中,预先得到的语音增强网络指的是经过训练的语音增强网络,该语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器。
步骤103、通过分析滤波器对第一语音进行短时傅里叶变换处理,得到原始傅里叶频谱。
其中,分析滤波器采用短时傅里叶变换,通过该分析滤波器可以对特定频率进行有效滤除,得到得到原始傅里叶频谱。
在一种可能实现的方式中,该短时傅里叶变换中帧长为256,帧移为64,FFT大小也是256,相当于帧长。输入为带噪语音
Figure 404949DEST_PATH_IMAGE002
,输出为原始傅里叶频谱
Figure 512582DEST_PATH_IMAGE004
,其中,R为实数值集合,L为语音采样点数,F为傅里叶频点数目256,T为帧数。
步骤104、通过混合神经网络对原始傅里叶频谱进行特征提取处理,得到特征数据。
其中,混合神经网络包括卷积网络编码器、对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器,特征数据包括增强的傅里叶频谱或者复数掩蔽。
在一种可能实现的方式中,原始傅里叶频谱
Figure DEST_PATH_IMAGE005_25A
通过卷积网络编码器、对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器,进行语音增强的处理,得到特征数据,特征数据包括增强的傅里叶频谱
Figure 783158DEST_PATH_IMAGE006
或者复数掩蔽
Figure 145000DEST_PATH_IMAGE008
,其中,F为傅里叶频点数目256,T为帧数。
步骤105、通过合成滤波器对特征数据进行短时逆傅里叶变换处理,得到去噪后的第二语音。
其中,合成滤波器采用短时逆傅里叶变换,通过该合成滤波器可以对特定频率进行有效滤除,得到去噪后的第二语音。
在一种可能实现的方式中,该短时逆傅里叶变换中帧长为256,帧移为64,FFT大小也是256,相当于帧长。输入为特征数据,即增强后的傅里叶频谱
Figure DEST_PATH_IMAGE009_92A
或者复数掩蔽
Figure 295359DEST_PATH_IMAGE010
,输出为增强后的语音
Figure 375441DEST_PATH_IMAGE012
,其中,R为实数值集合,L为语音采样点数,F为傅里叶频点数目256,T为帧数。
上述语音增强方法,首先,获取待处理的第一语音,第一语音含有噪声,接着,将第一语音输入至预先得到的语音增强网络中,其中,语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器,其次,通过分析滤波器对第一语音进行短时傅里叶变换处理,得到原始傅里叶频谱,进而,通过混合神经网络对原始傅里叶频谱进行特征提取处理,得到特征数据,特征数据包括增强的傅里叶频谱或者复数掩蔽,最后,通过合成滤波器对特征数据进行短时逆傅里叶变换处理,得到去噪后的第二语音,通过本方法,可以得到去噪增强后的语音,提高语音识别能力。
请参考图2,在一个实施例中针对本申请的语音增强网络,展现了一个示例性的结构框图,其中包括级联的分析滤波器、卷积网络编码器、对偶循环神经网络、对偶注意力机制网络、卷积网络解码器以及合成滤波器,其中,分析滤波器将处理后的语音信息发送至卷积网络编码,并继续由对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器,对该信息进行下一步处理,最终输出至合成滤波器中。
如前文所述,在得到原始傅里叶频谱后,需要通过混合神经网络,包括卷积网络编码器、对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器,对原始傅里叶频谱进行特征提取处理,得到特征数据,如图3所示,本申请实施例提供了一种特征提取的方法,包括以下步骤:
步骤301、通过卷积网络编码器对原始傅里叶频谱进行编码处理,得到第一特征序列。
其中,该卷积网络编码器包括级联的多个卷积层,该多个卷积层可以进行迭代卷积操作。
在一种可能实现的方式中,卷积层的通道数均为64,卷积核大小均为(3,2),步长为(2,1),(2,1),(1,1)。第i个卷积网络编码器的输入为原始傅里叶频谱
Figure 902237DEST_PATH_IMAGE014
和之前所有卷积网络编码器迭代卷积拼接得到的特征向量
Figure 853007DEST_PATH_IMAGE016
,其中i=1,2,3...,F为傅里叶频点数目129,T为帧数,输出为C=64维的第一特征序列
Figure 174267DEST_PATH_IMAGE018
,其中C=64,F`=256/4=64,T为帧数。
步骤302、通过对偶循环神经网络对第一特征序列进行特征提取处理,得到第二特征序列。
其中,该对偶循环神经网络包括时域循环神经网络和频域循环神经网络,基于该时域循环神经网络和频域循环神经网络,对第一特征序列进行特征提取处理,得到第二特征序列。
具体的,得到第二特征序列的方法,包括:将第一特征序列中各个子带对应的特征信息输入至时域循环神经网络中,并将第一特征序列中各个时间点对应的特征信息输入至频域循环神经网络,以基于时域循环神经网络和频域循环神经网络的输出得到第二特征序列。
在一种可能实现的方式中,时域循环神经网络和频域循环神经网络分别沿时间轴和频率轴建模,时域循环神经网络的输入为第一特征序列
Figure DEST_PATH_IMAGE019_110A
中每个子带的信息:
Figure DEST_PATH_IMAGE021_130A
,其中f为中间变量,R为实数值集合,C为64,T为帧数,F`为64;频域循环神经网络的输入为第一特征序列
Figure DEST_PATH_IMAGE019_111A
中每个时间点的信息:
Figure DEST_PATH_IMAGE023_88A
,其中t为另一个中间变量,R为实数值集合,C为64,F`为64,T为帧数,基于时域循环神经网络和频域循环神经网络的输出,得到第二特征序列为
Figure DEST_PATH_IMAGE025_89A
,其中,R为实数值集合,C为64,F`为64,T为帧数。
步骤303、通过对偶注意力机制网络对第二特征序列进行特征提取处理,得到第三特征序列。
其中,该对偶注意力机制网络包括时域注意力神经网络和频域注意力神经网络,基于该时域注意力神经网络和频域注意力神经网络,对第二特征序列进行特征提取处理,得到第三特征序列。
具体的,得到第三特征序列的方法,包括:将第二特征序列中各个子带对应的特征信息输入至时域注意力神经网络中,并将第二特征序列中各个时间点对应的特征信息输入至频域注意力神经网络,以基于时域注意力神经网络和频域注意力神经网络的输出得到第三特征序列。
在一种可能实现的方式中,时域注意力神经网络和频域注意力神经网络分别沿时间轴和频率轴建模,时域注意力神经网络的输入为第二特征序列
Figure 430061DEST_PATH_IMAGE026
中每个子带的信息:
Figure 968404DEST_PATH_IMAGE028
,其中f为中间变量,R为实数值集合,C为64,T为帧数,F`为64;频域注意力神经网络的输入为第二特征序列
Figure DEST_PATH_IMAGE029_90A
中每个时间点的信息:
Figure 367155DEST_PATH_IMAGE031
,其中t为另一个中间变量,R为实数值集合,C为64,F`为64,T为帧数,基于时域注意力神经网络和频域注意力神经网络的输出,得到第三特征序列为
Figure 859316DEST_PATH_IMAGE033
,R为实数值集合,C为64,F`为64,T为帧数。
步骤304、通过卷积网络解码器对第三特征序列进行解码处理,得到特征数据。
其中,该卷积网络解码器包括级联的多个逆卷积层,该多个逆卷积层可以进行迭代逆卷积操作。
具体的,得到特征数据的方法,包括:将第三特征序列输入至多个逆卷积层,以通过多个逆卷积层对第三特征序列进行逆卷积处理,得到特征数据。
在一种可能实现的方式中,该卷积网络解码器由三层逆卷积层组成,是卷积网络编码器的逆操作。卷积网络解码器的输入为第三特征序列
Figure 648412DEST_PATH_IMAGE033
,输出为特征数据,该特征数据包括增强的傅里叶频谱
Figure 517011DEST_PATH_IMAGE034
或预测的复数掩蔽
Figure 707952DEST_PATH_IMAGE035
如前文所述,在特征提取时,首先是通过卷积网络编码器对原始傅里叶频谱进行编码处理,得到第一特征序列,如图4所示,本申请实施例提供了一种得到第一特征序列的方法,包括以下步骤:
步骤401、对于各卷积层,根据原始傅里叶频谱确定卷积层的输入,并对输入进行卷积处理,得到卷积层的输出。
其中,根据原始傅里叶频谱确定卷积层的输入包括两种情况,包括:该卷积层为第1个卷积层,以及该卷积层不为第1个卷积层,以下针对这两种情况分别进行说明。
若卷积层为多个卷积层中的第1个卷积层,则将原始傅里叶频谱作为卷积层的输入。
可以理解的是,第1个卷积层指的是最上层第1个输入原始傅里叶频谱的卷积层,该卷积层对原始傅里叶频谱做第1次卷积处理。
在一种可能实现的方式中,第1个卷积层的输入为原始傅里叶频谱
Figure 43118DEST_PATH_IMAGE036
,其中,L为语音采样点数,F为傅里叶频点数目129,T为帧数。
若卷积层不为多个卷积层中的第1个卷积层,则将原始傅里叶频谱和上一卷积层的输出进行拼接处理,并将拼接处理得到的序列作为卷积层的输入。
示例性的,卷积层为第2个卷积层,该第2个卷积层的输入为原始傅里叶频谱和第1个卷积层的输出拼接得到的序列,经过卷积得到第2个卷积层的输出;卷积层为第3个卷积层,该第3个卷积层的输入为原始傅里叶频谱和第2个卷积层的输出拼接得到的序列,经过卷积得到第3个卷积层的输出,以此迭代。
在一种可能实现的方式中,第i个卷积网络编码器的输入为原始傅里叶频谱
Figure DEST_PATH_IMAGE037_111A
和之前所有卷积网络编码器迭代卷积得到的特征向量
Figure 647406DEST_PATH_IMAGE038
拼接得到的序列,其中i=1,2,3...,F为傅里叶频点数目129,T为帧数。
步骤402、将多个卷积层中最后一个卷积层的输出作为第一特征序列。
可以理解的是,其中最后一个卷积层指的是最下层的卷积层,该卷积层的输出无法再输入至下一个卷积层,则将该卷积层的输出作为第一特征序列。
除此之外,请参考图5,为了获得预先得到的语音增强网络,本申请实施例中还提供了一种训练语音增强网络的方法,包括以下步骤:
步骤501、获取训练集,训练集包括多个训练样本,各训练样本包括含噪声的训练语音和不含噪声的训练语音。
其中,该训练语音可选的,可以自行采集语音样本,也可以从现有语音集中收集语音样本,例如从TIMIT训练集中收集含噪声语音样本和不含噪声语音样本。
除此之外,该含噪声的训练语音也可以通过语音混合的方式获得,例如将纯净语音样本与噪声语音样本混合,可选的,混合语音的方式,可以通过软件进行混合,例如使用GoldWave、Adobe Audition、Cool Edit Pro等音频处理软件。
步骤502、利用训练集对初始语音增强网络进行训练,得到语音增强网络。
在一种可能实现的方式中,使用时域损失和频域损失作为目标函数,基于反向传播的方法训练设计语音增强网络,目标函数如下:
Figure 788537DEST_PATH_IMAGE040
其中,时域损失为
Figure 286515DEST_PATH_IMAGE042
,频域损失为
Figure 605632DEST_PATH_IMAGE044
Figure 821849DEST_PATH_IMAGE046
为估计语音,y为参考干净语音。
Figure 766672DEST_PATH_IMAGE048
为估计语音的复数谱的实部,
Figure 119156DEST_PATH_IMAGE050
为估计语音的复数谱的虚部,
Figure 61704DEST_PATH_IMAGE052
为干净语音的复数谱的实部,
Figure 312688DEST_PATH_IMAGE054
为干净语音的复数谱的虚部。
在一个实施例中,如图6所示,提供了一种语音增强方法,包括以下步骤:
步骤601、获取训练集,训练集包括多个训练样本,各训练样本包括含噪声的训练语音和不含噪声的训练语音。
步骤602、利用训练集对初始语音增强网络进行训练,得到语音增强网络。
步骤603、获取待处理的第一语音,第一语音含有噪声。
步骤604、将第一语音输入至预先得到的语音增强网络中,其中,语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器。
步骤605、通过分析滤波器对第一语音进行短时傅里叶变换处理,得到原始傅里叶频谱。
步骤606、对于各卷积层,若卷积层为多个卷积层中的第1个卷积层,则将原始傅里叶频谱作为卷积层的输入。
步骤607、若卷积层不为多个卷积层中的第1个卷积层,则将原始傅里叶频谱和上一卷积层的输出进行拼接处理,并将拼接处理得到的序列作为卷积层的输入。
步骤608、对输入进行卷积处理,得到卷积层的输出。
步骤609、将多个卷积层中最后一个卷积层的输出作为第一特征序列。
步骤610、将第一特征序列中各个子带对应的特征信息输入至时域循环神经网络中,并将第一特征序列中各个时间点对应的特征信息输入至频域循环神经网络,以基于时域循环神经网络和频域循环神经网络的输出得到第二特征序列。
步骤611、将第二特征序列中各个子带对应的特征信息输入至时域注意力神经网络中,并将第二特征序列中各个时间点对应的特征信息输入至频域注意力神经网络,以基于时域注意力神经网络和频域注意力神经网络的输出得到第三特征序列。
步骤612、将第三特征序列输入至多个逆卷积层,以通过多个逆卷积层对第三特征序列进行逆卷积处理,得到特征数据。
其中,特征数据包括增强的傅里叶频谱或者复数掩蔽。
步骤613、通过合成滤波器对特征数据进行短时逆傅里叶变换处理,得到去噪后的第二语音。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的语音增强方法的语音增强装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个语音增强装置实施例中的具体限定可以参见上文中对于语音增强方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种语音增强装置700,包括:获取模块701、输入模块702、变换模块703、提取模块704以及逆变换模块705,其中:
获取模块701,用于获取待处理的第一语音,第一语音含有噪声。
输入模块702,用于将第一语音输入至预先得到的语音增强网络中,其中,语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器。
变换模块703,用于通过分析滤波器对第一语音进行短时傅里叶变换处理,得到原始傅里叶频谱。
提取模块704,用于通过混合神经网络对原始傅里叶频谱进行特征提取处理,得到特征数据,特征数据包括增强的傅里叶频谱或者复数掩蔽。
逆变换模块705,用于通过合成滤波器对特征数据进行短时逆傅里叶变换处理,得到去噪后的第二语音。
在其中一个实施例中,该混合神经网络包括级联的卷积网络编码器、对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器,该提取模块704包括:编码单元、第一提取单元、第二提取单元以及解码单元,其中:
编码单元,用于通过卷积网络编码器对原始傅里叶频谱进行编码处理,得到第一特征序列。
第一提取单元,用于通过对偶循环神经网络对第一特征序列进行特征提取处理,得到第二特征序列。
第二提取单元,用于通过对偶注意力机制网络对第二特征序列进行特征提取处理,得到第三特征序列。
解码单元,用于通过卷积网络解码器对第三特征序列进行解码处理,得到特征数据。
在其中一个实施例中,该卷积网络编码器包括级联的多个卷积层,该编码单元包括:第一编码子单元以及第二编码子单元,其中:
第一编码子单元,用于对于各卷积层,根据原始傅里叶频谱确定卷积层的输入,并对输入进行卷积处理,得到卷积层的输出。
第二编码子单元,用于将多个卷积层中最后一个卷积层的输出作为第一特征序列。
在其中一个实施例中,该第一编码子单元,具体用于:若卷积层为多个卷积层中的第1个卷积层,则将原始傅里叶频谱作为卷积层的输入;若卷积层不为多个卷积层中的第1个卷积层,则将原始傅里叶频谱和上一卷积层的输出进行拼接处理,并将拼接处理得到的序列作为卷积层的输入。
在其中一个实施例中,该对偶循环神经网络包括时域循环神经网络和频域循环神经网络,该第一提取单元,具体用于:将第一特征序列中各个子带对应的特征信息输入至时域循环神经网络中,并将第一特征序列中各个时间点对应的特征信息输入至频域循环神经网络,以基于时域循环神经网络和频域循环神经网络的输出得到第二特征序列。
在其中一个实施例中,该对偶注意力机制网络包括时域注意力神经网络和频域注意力神经网络,该第二提取单元,具体用于:将第二特征序列中各个子带对应的特征信息输入至时域注意力神经网络中,并将第二特征序列中各个时间点对应的特征信息输入至频域注意力神经网络,以基于时域注意力神经网络和频域注意力神经网络的输出得到第三特征序列。
在其中一个实施例中,该解码单元,具体用于:将第三特征序列输入至多个逆卷积层,以通过多个逆卷积层对第三特征序列进行逆卷积处理,得到特征数据。
在其中一个实施例中,如图8所示,其示出了本申请实施例提供的另一种语音增强装置800,语音增强装置800除了包含语音增强装置700包括的各个模块外,还包括训练模块706,该训练模块706,用于:获取训练集,训练集包括多个训练样本,各训练样本包括含噪声的训练语音和不含噪声的训练语音;利用训练集对初始语音增强网络进行训练,得到语音增强网络。
上述语音增强装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音增强方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音增强方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9或图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待处理的第一语音,第一语音含有噪声;将第一语音输入至预先得到的语音增强网络中,其中,语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器;通过分析滤波器对第一语音进行短时傅里叶变换处理,得到原始傅里叶频谱;通过混合神经网络对原始傅里叶频谱进行特征提取处理,得到特征数据,特征数据包括增强的傅里叶频谱或者复数掩蔽;通过合成滤波器对特征数据进行短时逆傅里叶变换处理,得到去噪后的第二语音。
在其中一个实施例中,该混合神经网络包括级联的卷积网络编码器、对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器,该处理器执行计算机程序时实现以下步骤:通过卷积网络编码器对原始傅里叶频谱进行编码处理,得到第一特征序列;通过对偶循环神经网络对第一特征序列进行特征提取处理,得到第二特征序列;通过对偶注意力机制网络对第二特征序列进行特征提取处理,得到第三特征序列;通过卷积网络解码器对第三特征序列进行解码处理,得到特征数据。
在其中一个实施例中,该卷积网络编码器包括级联的多个卷积层,该处理器执行计算机程序时实现以下步骤:对于各卷积层,根据原始傅里叶频谱确定卷积层的输入,并对输入进行卷积处理,得到卷积层的输出;将多个卷积层中最后一个卷积层的输出作为第一特征序列。
在其中一个实施例中,该处理器执行计算机程序时实现以下步骤:若卷积层为多个卷积层中的第1个卷积层,则将原始傅里叶频谱作为卷积层的输入;若卷积层不为多个卷积层中的第1个卷积层,则将原始傅里叶频谱和上一卷积层的输出进行拼接处理,并将拼接处理得到的序列作为卷积层的输入。
在其中一个实施例中,该对偶循环神经网络包括时域循环神经网络和频域循环神经网络,该处理器执行计算机程序时实现以下步骤:将第一特征序列中各个子带对应的特征信息输入至时域循环神经网络中,并将第一特征序列中各个时间点对应的特征信息输入至频域循环神经网络,以基于时域循环神经网络和频域循环神经网络的输出得到第二特征序列。
在其中一个实施例中,该对偶注意力机制网络包括时域注意力神经网络和频域注意力神经网络,该处理器执行计算机程序时实现以下步骤:将第二特征序列中各个子带对应的特征信息输入至时域注意力神经网络中,并将第二特征序列中各个时间点对应的特征信息输入至频域注意力神经网络,以基于时域注意力神经网络和频域注意力神经网络的输出得到第三特征序列。
在其中一个实施例中,该卷积网络解码器包括级联的多个逆卷积层,该处理器执行计算机程序时实现以下步骤:将第三特征序列输入至多个逆卷积层,以通过多个逆卷积层对第三特征序列进行逆卷积处理,得到特征数据。
在其中一个实施例中,该处理器执行计算机程序时实现以下步骤:获取训练集,训练集包括多个训练样本,各训练样本包括含噪声的训练语音和不含噪声的训练语音;利用训练集对初始语音增强网络进行训练,得到语音增强网络。
在一个实施例中,提供了一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待处理的第一语音,第一语音含有噪声;将第一语音输入至预先得到的语音增强网络中,其中,语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器;通过分析滤波器对第一语音进行短时傅里叶变换处理,得到原始傅里叶频谱;通过混合神经网络对原始傅里叶频谱进行特征提取处理,得到特征数据,特征数据包括增强的傅里叶频谱或者复数掩蔽;通过合成滤波器对特征数据进行短时逆傅里叶变换处理,得到去噪后的第二语音。
在其中一个实施例中,该混合神经网络包括级联的卷积网络编码器、对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器,计算机程序被处理器执行时实现以下步骤:通过卷积网络编码器对原始傅里叶频谱进行编码处理,得到第一特征序列;通过对偶循环神经网络对第一特征序列进行特征提取处理,得到第二特征序列;通过对偶注意力机制网络对第二特征序列进行特征提取处理,得到第三特征序列;通过卷积网络解码器对第三特征序列进行解码处理,得到特征数据。
在其中一个实施例中,该卷积网络编码器包括级联的多个卷积层,计算机程序被处理器执行时实现以下步骤:对于各卷积层,根据原始傅里叶频谱确定卷积层的输入,并对输入进行卷积处理,得到卷积层的输出;将多个卷积层中最后一个卷积层的输出作为第一特征序列。
在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:若卷积层为多个卷积层中的第1个卷积层,则将原始傅里叶频谱作为卷积层的输入;若卷积层不为多个卷积层中的第1个卷积层,则将原始傅里叶频谱和上一卷积层的输出进行拼接处理,并将拼接处理得到的序列作为卷积层的输入。
在其中一个实施例中,该对偶循环神经网络包括时域循环神经网络和频域循环神经网络,计算机程序被处理器执行时实现以下步骤:将第一特征序列中各个子带对应的特征信息输入至时域循环神经网络中,并将第一特征序列中各个时间点对应的特征信息输入至频域循环神经网络,以基于时域循环神经网络和频域循环神经网络的输出得到第二特征序列。
在其中一个实施例中,该对偶注意力机制网络包括时域注意力神经网络和频域注意力神经网络,计算机程序被处理器执行时实现以下步骤:将第二特征序列中各个子带对应的特征信息输入至时域注意力神经网络中,并将第二特征序列中各个时间点对应的特征信息输入至频域注意力神经网络,以基于时域注意力神经网络和频域注意力神经网络的输出得到第三特征序列。
在其中一个实施例中,该卷积网络解码器包括级联的多个逆卷积层,计算机程序被处理器执行时实现以下步骤:将第三特征序列输入至多个逆卷积层,以通过多个逆卷积层对第三特征序列进行逆卷积处理,得到特征数据。
在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:获取训练集,训练集包括多个训练样本,各训练样本包括含噪声的训练语音和不含噪声的训练语音;利用训练集对初始语音增强网络进行训练,得到语音增强网络。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (11)

1.一种语音增强方法,其特征在于,所述方法包括:
获取待处理的第一语音,所述第一语音含有噪声;
将所述第一语音输入至预先得到的语音增强网络中,其中,所述语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器;
通过所述分析滤波器对所述第一语音进行短时傅里叶变换处理,得到原始傅里叶频谱;
通过所述混合神经网络对所述原始傅里叶频谱进行特征提取处理,得到特征数据,所述特征数据包括增强的傅里叶频谱或者复数掩蔽;
通过所述合成滤波器对所述特征数据进行短时逆傅里叶变换处理,得到去噪后的第二语音。
2.根据权利要求1所述的方法,其特征在于,所述混合神经网络包括级联的卷积网络编码器、对偶循环神经网络、对偶注意力机制网络以及卷积网络解码器,所述通过所述混合神经网络对所述原始傅里叶频谱进行特征提取处理,得到特征数据,包括:
通过所述卷积网络编码器对所述原始傅里叶频谱进行编码处理,得到第一特征序列;
通过所述对偶循环神经网络对所述第一特征序列进行特征提取处理,得到第二特征序列;
通过所述对偶注意力机制网络对所述第二特征序列进行特征提取处理,得到第三特征序列;
通过所述卷积网络解码器对所述第三特征序列进行解码处理,得到所述特征数据。
3.根据权利要求2所述的方法,其特征在于,所述卷积网络编码器包括级联的多个卷积层,所述通过所述卷积网络编码器对所述原始傅里叶频谱进行编码处理,得到第一特征序列,包括:
对于各所述卷积层,根据所述原始傅里叶频谱确定所述卷积层的输入,并对所述输入进行卷积处理,得到所述卷积层的输出;
将所述多个卷积层中最后一个卷积层的输出作为所述第一特征序列。
4.根据权利要求3所述的方法,其特征在于,所述根据所述原始傅里叶频谱确定所述卷积层的输入,包括:
若所述卷积层为所述多个卷积层中的第1个卷积层,则将所述原始傅里叶频谱作为所述卷积层的输入;
若所述卷积层不为所述多个卷积层中的第1个卷积层,则将所述原始傅里叶频谱和上一卷积层的输出进行拼接处理,并将拼接处理得到的序列作为所述卷积层的输入。
5.根据权利要求2所述的方法,其特征在于,所述对偶循环神经网络包括时域循环神经网络和频域循环神经网络,所述通过所述对偶循环神经网络对所述第一特征序列进行特征提取处理,得到第二特征序列,包括:
将所述第一特征序列中各个子带对应的特征信息输入至所述时域循环神经网络中,并将所述第一特征序列中各个时间点对应的特征信息输入至所述频域循环神经网络,以基于所述时域循环神经网络和所述频域循环神经网络的输出得到所述第二特征序列。
6.根据权利要求2所述的方法,其特征在于,所述对偶注意力机制网络包括时域注意力神经网络和频域注意力神经网络,所述通过所述对偶注意力机制网络对所述第二特征序列进行特征提取处理,得到第三特征序列,包括:
将所述第二特征序列中各个子带对应的特征信息输入至所述时域注意力神经网络中,并将所述第二特征序列中各个时间点对应的特征信息输入至所述频域注意力神经网络,以基于所述时域注意力神经网络和所述频域注意力神经网络的输出得到所述第三特征序列。
7.根据权利要求2所述的方法,其特征在于,所述卷积网络解码器包括级联的多个逆卷积层,所述通过所述卷积网络解码器对所述第三特征序列进行解码处理,得到所述特征数据,包括:
将所述第三特征序列输入至所述多个逆卷积层,以通过所述多个逆卷积层对所述第三特征序列进行逆卷积处理,得到所述特征数据。
8.根据权利要求1至7任一所述的方法,其特征在于,所述方法还包括:
获取训练集,所述训练集包括多个训练样本,各所述训练样本包括含噪声的训练语音和不含噪声的训练语音;
利用所述训练集对初始语音增强网络进行训练,得到所述语音增强网络。
9.一种语音增强装置,其特征在于,所述装置包括:
获取模块,用于获取待处理的第一语音,所述第一语音含有噪声;
输入模块,用于将所述第一语音输入至预先得到的语音增强网络中,其中,所述语音增强网络包括级联的分析滤波器、混合神经网络以及合成滤波器;
变换模块,用于通过所述分析滤波器对所述第一语音进行短时傅里叶变换处理,得到原始傅里叶频谱;
提取模块,用于通过所述混合神经网络对所述原始傅里叶频谱进行特征提取处理,得到特征数据,所述特征数据包括增强的傅里叶频谱或者复数掩蔽;
逆变换模块,用于通过所述合成滤波器对所述特征数据进行短时逆傅里叶变换处理,得到去噪后的第二语音。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN202211592701.XA 2022-12-13 2022-12-13 语音增强方法、装置、设备和存储介质 Active CN115588437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211592701.XA CN115588437B (zh) 2022-12-13 2022-12-13 语音增强方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211592701.XA CN115588437B (zh) 2022-12-13 2022-12-13 语音增强方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN115588437A true CN115588437A (zh) 2023-01-10
CN115588437B CN115588437B (zh) 2023-04-07

Family

ID=84783573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211592701.XA Active CN115588437B (zh) 2022-12-13 2022-12-13 语音增强方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN115588437B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117894306A (zh) * 2024-03-18 2024-04-16 深圳市龙芯威半导体科技有限公司 一种语音处理方法、装置、计算机设备及存储介质
CN117909665A (zh) * 2024-03-18 2024-04-19 青岛哈尔滨工程大学创新发展中心 基于傅里叶滤波的船舶运动包络预报数据处理方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110164418A (zh) * 2019-07-10 2019-08-23 哈尔滨工业大学 基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法
CN110189749A (zh) * 2019-06-06 2019-08-30 四川大学 语音关键词自动识别方法
CN110739002A (zh) * 2019-10-16 2020-01-31 中山大学 基于生成对抗网络的复数域语音增强方法、系统及介质
CN112489616A (zh) * 2020-11-30 2021-03-12 国网重庆市电力公司物资分公司 一种语音合成方法
CN112818891A (zh) * 2021-02-10 2021-05-18 西南电子技术研究所(中国电子科技集团公司第十研究所) 通信干扰信号类型智能识别方法
CN113409759A (zh) * 2021-07-07 2021-09-17 浙江工业大学 一种端到端实时语音合成方法
US20220291328A1 (en) * 2015-07-17 2022-09-15 Muhammed Zahid Ozturk Method, apparatus, and system for speech enhancement and separation based on audio and radio signals
CN115273884A (zh) * 2022-06-17 2022-11-01 南京大学 基于频谱压缩和神经网络的多阶段全频带语音增强方法
CN115295001A (zh) * 2022-07-26 2022-11-04 中国科学技术大学 一种基于渐进式融合校正网络的单通道语音增强方法
CN115424627A (zh) * 2021-06-01 2022-12-02 南京大学 基于卷积循环网络和wpe算法的语音增强混合处理方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220291328A1 (en) * 2015-07-17 2022-09-15 Muhammed Zahid Ozturk Method, apparatus, and system for speech enhancement and separation based on audio and radio signals
CN110189749A (zh) * 2019-06-06 2019-08-30 四川大学 语音关键词自动识别方法
CN110164418A (zh) * 2019-07-10 2019-08-23 哈尔滨工业大学 基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法
CN110739002A (zh) * 2019-10-16 2020-01-31 中山大学 基于生成对抗网络的复数域语音增强方法、系统及介质
CN112489616A (zh) * 2020-11-30 2021-03-12 国网重庆市电力公司物资分公司 一种语音合成方法
CN112818891A (zh) * 2021-02-10 2021-05-18 西南电子技术研究所(中国电子科技集团公司第十研究所) 通信干扰信号类型智能识别方法
CN115424627A (zh) * 2021-06-01 2022-12-02 南京大学 基于卷积循环网络和wpe算法的语音增强混合处理方法
CN113409759A (zh) * 2021-07-07 2021-09-17 浙江工业大学 一种端到端实时语音合成方法
CN115273884A (zh) * 2022-06-17 2022-11-01 南京大学 基于频谱压缩和神经网络的多阶段全频带语音增强方法
CN115295001A (zh) * 2022-07-26 2022-11-04 中国科学技术大学 一种基于渐进式融合校正网络的单通道语音增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
焦李成: "《人工智能、类脑计算与图像解译前沿》" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117894306A (zh) * 2024-03-18 2024-04-16 深圳市龙芯威半导体科技有限公司 一种语音处理方法、装置、计算机设备及存储介质
CN117909665A (zh) * 2024-03-18 2024-04-19 青岛哈尔滨工程大学创新发展中心 基于傅里叶滤波的船舶运动包络预报数据处理方法及系统

Also Published As

Publication number Publication date
CN115588437B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN108564963A (zh) 用于增强语音的方法和装置
CN112259116B (zh) 一种音频数据的降噪方法、装置、电子设备及存储介质
WO2022141868A1 (zh) 一种提取语音特征的方法、装置、终端及存储介质
CN111009257A (zh) 一种音频信号处理方法、装置、终端及存储介质
CN111724807A (zh) 音频分离方法、装置、电子设备及计算机可读存储介质
CN115588437B (zh) 语音增强方法、装置、设备和存储介质
Villanueva-Luna et al. De-noising audio signals using MATLAB wavelets toolbox
CN114566180A (zh) 一种语音处理方法、装置和用于处理语音的装置
CN113611324A (zh) 一种直播中环境噪声抑制的方法、装置、电子设备及存储介质
CN114283833A (zh) 语音增强模型训练方法、语音增强方法、相关设备及介质
Şimşekli et al. Non-negative tensor factorization models for Bayesian audio processing
CN117558288B (zh) 单通道语音增强模型的训练方法、装置、设备及存储介质
CN111583958B (zh) 音频信号处理方法、装置、电子设备及存储介质
WO2024055751A1 (zh) 音频数据处理方法、装置、设备、存储介质及程序产品
WO2023226572A1 (zh) 特征表示的提取方法、装置、设备、介质及程序产品
CN112489675A (zh) 一种多通道盲源分离方法、装置、机器可读介质及设备
CN112397086A (zh) 语音关键词检测方法、装置、终端设备和存储介质
CN116959462A (zh) 房间脉冲响应估算方法、装置、设备及可读存储介质
CN113611321B (zh) 一种语音增强方法及系统
CN115862650A (zh) 神经网络实现的降噪方法及训练方法、装置、设备、芯片
CN114783455A (zh) 用于语音降噪的方法、装置、电子设备和计算机可读介质
CN114155868A (zh) 语音增强方法、装置、设备及存储介质
CN115881153A (zh) 音频降噪方法、装置、设备及存储介质
CN113921032A (zh) 音频处理模型的训练方法及装置、音频处理方法及装置
CN117012221A (zh) 音频降噪方法、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 86, room 406, No.1, Yichuang street, Zhongxin Guangzhou Knowledge City, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Southern Power Grid Digital Grid Research Institute Co.,Ltd.

Country or region after: China

Address before: Room 86, room 406, No.1, Yichuang street, Zhongxin Guangzhou Knowledge City, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Southern Power Grid Digital Grid Research Institute Co.,Ltd.

Country or region before: China