CN113345463B - 基于卷积神经网络的语音增强方法、装置、设备及介质 - Google Patents
基于卷积神经网络的语音增强方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113345463B CN113345463B CN202110605515.4A CN202110605515A CN113345463B CN 113345463 B CN113345463 B CN 113345463B CN 202110605515 A CN202110605515 A CN 202110605515A CN 113345463 B CN113345463 B CN 113345463B
- Authority
- CN
- China
- Prior art keywords
- gabor
- layer
- voice
- masking
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 42
- 230000009466 transformation Effects 0.000 claims abstract description 115
- 230000000873 masking effect Effects 0.000 claims abstract description 102
- 239000013598 vector Substances 0.000 claims abstract description 54
- 230000009467 reduction Effects 0.000 claims abstract description 47
- 238000010586 diagram Methods 0.000 claims abstract description 40
- 238000001914 filtration Methods 0.000 claims abstract description 23
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 17
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 127
- 230000008569 process Effects 0.000 description 11
- 230000004044 response Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 229910052698 phosphorus Inorganic materials 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及人工智能技术领域,尤其涉及一种基于卷积神经网络的语音增强方法、装置、设备及介质。该基于卷积神经网络的语音增强方法包括获取待降噪语音的时域波形图以及语音增强模型;其中,语音增强模型包括依次连接的伽柏卷积层、简单递归层、特征掩蔽层以及反卷积层;通过复数滤波器对时域波形图进行伽柏变换,提取伽柏变换特征;将伽柏变换特征输入至简单递归层进行预测,以确定特征掩蔽层对应的掩蔽向量;通过特征掩蔽层,根据掩蔽向量对伽柏变换特征进行过滤,得到降噪后的伽柏变换特征;通过反卷积层对降噪后的伽柏变换特征进行还原,得到目标降噪语音。该基于卷积神经网络的语音增强方法可有效提高模型计算效率以及准确率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于卷积神经网络的语音增强方法、装置、设备及介质。
背景技术
语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,加强有用语音信号的质量和清晰度,抑制、降低噪声干扰的技术。由于设计流程简单,端到端的神经网络模型在语音增强领域被广泛使用,但目前的大多研究没有有效考虑语音的局部和序列特性,导致目前的语音增强模型的计算效率以及准确率不高的问题。
发明内容
本发明实施例提供一种基于卷积神经网络的语音增强方法、装置、设备及介质,以解决目前语音增强模型的计算效率以及准确率不高的问题。
一种基于卷积神经网络的语音增强方法,包括:
获取待降噪语音的时域波形图;
将所述待降噪语音的时域波形图输入语音增强模型,其中,所述语音增强模型包括依次连接的伽柏卷积层、简单递归层、特征掩蔽层以及反卷积层;所述伽柏卷积层包括多个复数滤波器;
通过多个所述复数滤波器对时域波形图进行伽柏变换,提取所述待降噪语音的伽柏变换特征;
将所述伽柏变换特征输入至所述简单递归层进行预测,以确定所述特征掩蔽层对应的掩蔽向量;
通过特征掩蔽层,根据所述掩蔽向量对所述伽柏变换特征进行过滤,得到降噪后的伽柏变换特征;
通过所述反卷积层对所述降噪后的伽柏变换特征进行还原,得到目标降噪语音。
一种基于卷积神经网络的语音增强装置,包括:
数据获取模块,用于获取待降噪语音的时域波形图;
语音增强模块,用于将所述待降噪语音的时域波形图输入语音增强模型,其中,所述语音增强模型包括依次连接的伽柏卷积层、简单递归层、特征掩蔽层以及反卷积层;所述伽柏卷积层包括多个复数滤波器;
伽柏变换模块,用于通过多个所述复数滤波器对时域波形图进行伽柏变换,提取所述待降噪语音的伽柏变换特征;
预测模块,用于将所述伽柏变换特征输入至所述简单递归层进行预测,以确定所述特征掩蔽层对应的掩蔽向量;
过滤模块,用于通过特征掩蔽层,根据所述掩蔽向量对所述伽柏变换特征进行过滤,得到降噪后的伽柏变换特征;
还原模块,用于通过所述反卷积层对所述降噪后的伽柏变换特征进行还原,得到目标降噪语音。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于卷积神经网络的语音增强方法的步骤。
一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于卷积神经网络的语音增强方法的步骤。
上述基于卷积神经网络的语音增强方法、装置、设备及介质中,通过获取待降噪语音的时域波形图以及语音增强模型,以便通过伽柏卷积层对时域波形图进行伽柏变换,提取待降噪语音的伽柏变换特征,以从不同方向上提取不同的局部特征,使模型学习到的语音特征具有多样性,细化图像特征,提高模型预测的准确性。然后,将伽柏变换特征输入至简单递归层进行预测,以提取隐层语音特征,获取语音局部特征和时序的关联关系,进而确定特征掩蔽层对应的掩蔽向量,以利用简单递归层对于当前时刻状态的更新,不依赖于前序输出的特点,简化状态计算的过程,实现并行计算,以有效加速模型训练和推理速度。接着,通过特征掩蔽层,根据掩蔽向量对伽柏变换特征进行过滤,得到降噪后的伽柏变换特征,以过滤掉伽柏变换特征中的噪声特征,进而得到干净语音的伽柏变换特征,即降噪后的伽柏变换特征。最后,通过反卷积层对降噪后的伽柏变换特征进行还原,以将其映射到时域波形信号,得到目标降噪语音得到目标降噪语音,实现语音增强的目的。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中基于卷积神经网络的语音增强方法的一应用环境示意图;
图2是本发明一实施例中基于卷积神经网络的语音增强方法的一流程图;
图3是本发明一实施例中语音增强模型的一模型结构示意图;
图4是图2中步骤S202的一具体流程图;
图5是图2中步骤S204的一具体流程图;
图6是本发明一实施例中基于卷积神经网络的语音增强方法的一流程图;
图7是本发明一实施例中基于卷积神经网络的语音增强装置的一示意图;
图8是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
该基于卷积神经网络的语音增强方法可应用在如图1的应用环境中,其中,计算机设备通过网络与服务器进行通信。计算机设备可以包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。
在一实施例中,如图2所示,提供一种基于卷积神经网络的语音增强方法,该基于卷积神经网络的语音增强方法可应用在包括但不限于计算机设备或服务器中,如下以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S201:获取待降噪语音的时域波形图;
S202:将所述待降噪语音的时域波形图输入语音增强模型,其中,所述语音增强模型包括依次连接的伽柏卷积层、简单递归层、特征掩蔽层以及反卷积层;所述伽柏卷积层包括多个复数滤波器。
其中,待降噪语音可包括但不限于从前端业务模块中的录音模块所采集的线上语音或通过其他渠道获取的离线语音等。具体地,以采集录音模块的线上语音为例,通过采集录音模块返回的线上语音,该线上语音例可指示一对应的时域波形图,用于在时域中反映语音信号的振幅特征。
其中,伽柏卷积层包括多个复数滤波器(即由两个时间相邻的伽柏滤波器构成),用于对输入数据进行卷积操作,通过复数滤波器以从不同方向上提取不同的局部特征,使模型学习到的语音特征具有多样性,细化图像特征,提高模型预测的准确性。该简单递归层用于对伽柏卷积层的输出进行进一步处理,以提取隐层语音特征,进而获取语音局部特征和时序的关联关系,以准确提取当前时刻的语音特征,进而有效保证语音增强模型的准确率。
可以理解地,由于傅里叶变换为语音信号在整个时域内的积分,描述的是信号的整体统计特性,从而不能用于对信号局部变化进行分析。伽柏变换是加窗后的傅里叶变换,其通过引入时间局部化窗函数(一般为高斯函数),对信号施加一个滑动窗口后,再进行傅里叶变换,这样可实现在频域不同尺度、不同方向上提取信号局部特征的能力。本实施例中采用伽柏卷积层,以将具有不同方向和比例的复数滤波器用于替换传统卷积神经网络中的普通滤波器,即作为卷积层的卷积核,以实现对语音不同方向频率分布和不同比例数值分布的扩展性描述。
具体地,如图3所示,该语音增强模型包括依次连接的伽柏卷积层、简单递归层、特征掩蔽层以及反卷积层,通过将待降噪语音输入至伽柏卷积层中,得到伽柏变换特征F,然后将伽柏变换特征F输入至简单递归层(包括多个SRU计算单元)中,计算不同时刻t的隐层特征ht(即语音特征),然后根据简单递归层输出的不同时刻的隐层特征作为特征掩蔽层对应的掩蔽向量。该伽柏卷积层与特征掩蔽层构建一跳级连接(即过滤操作),用于通过根据特征掩蔽层对应的掩蔽向量M对所述伽柏卷积层输出的伽柏变换特征F进行过滤,得到降噪后的伽柏变换特征F’。反卷积层用于将降噪后的伽柏变换特征映射到时域波形信号,从而得到目标降噪语音Y。
S203:通过多个复数滤波器对时域波形图进行伽柏变换,提取待降噪语音的伽柏变换特征。
具体地,与频谱映射方法需要将语音波形图通过傅里叶变换变成频谱图不同,伽柏卷积层(一维)可直接输入待降噪语音的时域波形图,而无需转换为频谱。更进一步地,由于本实施例中采用一维的复数滤波器作为卷积核进行卷积,与传统的卷积网络相比,可大大减小训练参数,提高模型的计算效率。
其中,伽柏卷积层中设置多个复数滤波器作为卷积核,以对时域波形图进行伽柏变换即对待降噪语音X(X∈RN×1×L)进行步长S为W/2,填充P为W/2的卷积操作,提取待降噪语音的伽柏变换特征F(F∈RN×T×C)。其中,N,C,W,T,L分别是batch size、通道数、卷积核的大小、特征图尺寸和输入序列长度。该特征图尺寸为
本实施例中,复数滤波器均为长度为W的一维滤波器,该W长度可为25ms,若待降噪语音的采样频率为16kHz,则W可设置为400ms,具体可根据实际需要设置,此处不做限定。每一复数滤波器由两个相邻的伽柏滤波器构成。该伽柏滤波器即为不同时刻t的脉冲响应。
其中,伽柏滤波器由正弦信号调制高斯核而产生,高斯核的中心频率(ηn)n=1...N和带宽(σn)n=1...N可以参数化滤波器,通过网络学习、可以学习一组平滑的、准解析的带通滤波器。本实施例中,为了计算伽柏滤波器,先获得在/>的脉冲响应,然采用获取的脉冲响应作为伽柏滤波器,以对输入的待降噪语音进行卷积操作。如下为伽柏滤波器的脉冲响应公式/> 其中,i表示伽柏滤波器的虚数单位;N表示伽柏滤波器的数量,一般可选取为40或80,此处不做限定。于本实施例中,该中心频率(ηn)n=1...N可设置为[0,1/2],带宽(σn)n=1...N可设置为
S204:将伽柏变换特征输入至简单递归层进行预测,以确定特征掩蔽层对应的掩蔽向量。
其中,简单递归层包括多个SRU(简单循环单元,simple Recurrent Unit)单元组成。该SRU单元中神经元的当前时刻隐层特征ht的计算无需依赖于上一时刻隐层特征ht-1即可计算实现,从而简化状态计算的过程,实现并行计算,以有效加速模型训练和推理速度。同时,可实现通过内存核(cell)实现对长时语音的信息建模,以准确提取当前时刻的语音特征,其中,对于每一SRU单元的计算与传统SRU计算一致,此处不再赘述。
S205:通过特征掩蔽层,根据掩蔽向量对伽柏变换特征进行过滤,得到降噪后的伽柏变换特征。
其中,通过SRU单元提取伽柏变换特征中每一特征份量对应的隐层变量H(即当前时刻的语音特征),并输出至特征掩蔽层,以将该隐层变量H作为特征掩蔽层中掩蔽向量中的分量,从而确定掩蔽向量(可理解为过滤向量,用于过滤掉伽柏变换特征中的噪声特征,进而得到干净语音的伽柏变换特征,即降噪后的伽柏变换特征),进而根据掩蔽向量对伽柏变换特征进行过滤,即将掩蔽向量与伽柏变换特征进行点乘操作,得到降噪后的伽柏变换特征。其中,掩蔽向量的尺寸与伽柏变换特征的尺寸大小一致。
S206:通过反卷积层对降噪后的伽柏变换特征进行还原,得到目标降噪语音。
其中,为了保证输入与输出的序列长度相同,需要对降噪后的伽柏变换特征的序列长度进行复原,将其映射到时域波形信号,以得到目标降噪语音。输出长度的计算公式为Lout=(Lin-1)×S-2×P+W,其中Lin=T为反卷积层的输入长度,Lout=L,其中,W,P,S分别为反卷积的卷积核尺寸,也就是长度为W的一维复数滤波器、填充大小以及卷积步长;T表示输入序列的长度。
具体地,该反卷积层通过对降噪后的伽柏变换特征进行步长为W/2,填充为W/2的卷积操作,以对降噪后的伽柏变换特征的序列长度进行复原,将其映射到时域波形信号,以得到目标降噪语音。
本实施例中,通过获取待降噪语音的时域波形图以及语音增强模型,以便通过伽柏卷积层对时域波形图进行伽柏变换,提取待降噪语音的伽柏变换特征,以从不同方向上提取不同的局部特征,使模型学习到的语音特征具有多样性,细化图像特征,提高模型预测的准确性。然后,将伽柏变换特征输入至简单递归层进行预测,以提取隐层语音特征,获取语音局部特征和时序的关联关系,进而确定特征掩蔽层对应的掩蔽向量,以利用简单递归层对于当前时刻状态的更新,不依赖于前序输出的特点,简化状态计算的过程,实现并行计算,以有效加速模型训练和推理速度。接着,通过特征掩蔽层,根据掩蔽向量对伽柏变换特征进行过滤,得到降噪后的伽柏变换特征,以过滤掉伽柏变换特征中的噪声特征,进而得到干净语音的伽柏变换特征,即降噪后的伽柏变换特征。最后,通过反卷积层对降噪后的伽柏变换特征进行还原,以将其映射到时域波形信号,得到目标降噪语音得到目标降噪语音,实现语音增强的目的。
在一实施例中,复数滤波器为C个;每个复数滤波器包括两个时间相邻的伽柏滤波器。
本实施例中,为了不对复数直接操作,用2C个伽柏滤波器对待降噪语音进行步长为W,填充P为W的卷积处理,以采用时间相邻的两个伽柏滤波器分别表示复数滤波器的实部和虚部,以采用重构的复数滤波器作为卷积核对待降噪语音进行卷积操作。需要说明的是,不同复数滤波器中所包括的伽柏滤波器不存在交叉情况,例如伽柏滤波器对于不同时间t所得到的脉冲响应分别表示为E、F、G、H,通过这4个伽柏滤波器构建两个复数滤波器,即第一个复数滤波器包括E和F这两个伽柏滤波器,第二个复数滤波器包括G和H这两个伽柏滤波器。
在一实施例中,如图4所示,步骤S203中,即通过多个复数滤波器对时域波形图进行伽柏变换,提取待降噪语音的伽柏变换特征,该基于卷积神经网络的语音增强方法还包括如下步骤:
S301:采用时间相邻的两个伽柏滤波器分别对时域波形图进行卷积处理,得到第一特征和第二特征。
具体地,通过采用时间相邻的两个伽柏滤波器分别对时域波形图进行进行步长为W,填充P为W的卷积处理,得到第一特征和第二特征;其中,第一特征可表示复数滤波器中的实部,该第二特征可表示复数滤波器的虚部。
S302:将第一特征的模的平方和第二特征的模的平方相加,得到每一复数滤波器对应的复数特征。
S303:基于每一复数滤波器对应的复数特征,得到C个特征通道的伽柏变换特征。
具体地,通过计算复数滤波器的模,即将第一特征的模的平方和第二特征的模的平方相加,得到每个复数滤波器对应的复数特征,具体可通过如下公式表示步骤S301-S302的计算过程,x表示时域波形图、fc表示伽柏变换特征中第C个复数滤波器(或特征通道)的复数特征,通过对每一特征通道按照上述公式进行计算,即可得到C个特征通道的伽柏变换特征。
在一实施例中,如图5所示,步骤S205中,即通过特征掩蔽层,根据掩蔽向量对伽柏变换特征进行过滤,得到降噪后的伽柏变换特征,具体包括如下步骤:
S401:获取简单递归层确定的掩蔽向量。
S402:将掩蔽向量与伽柏变换特征进行点乘处理,得到降噪后的伽柏变换特征。
具体地,通过特征掩蔽层接收简单递归层确定的掩蔽向量中的各分量,然后再将掩蔽向量与伽柏变换特征进行点乘处理,得到降噪后的伽柏变换特征,如公式所示,F’=M·F(M∈RN×C×T),其中,M为掩蔽向量;F表示伽柏变换特征;F’可表示为降噪后的干净语音的伽柏变换特征。
在一实施例中,如图6所示,该基于卷积神经网络的语音增强方法还包括如下步骤:
S501:获取待训练语音数据,并初始化原始神经网络;其中,原始神经网络包括依次连接的伽柏卷积层、简单递归层、特征掩蔽层以及反卷积层;待训练语音数据包括带噪语音以及对应的干净语音。
其中,对于原始神经网络中的模型参数进行初始化,包括但不限于各层数量、神经元个数、卷积核参数以及掩蔽向量的初始值(向量中各元素取值范围为[-1,1])等等。该待训练语音包括带噪语音以及对应的干净语音,此干净语音为带噪语音除噪后的语音,用作样本的真实标注。
S502:通过伽柏卷积层对带噪语音进行伽柏变换,提取待训练的语音数据的训练特征。
具体地,步骤S502的具体计算过程与步骤301-S302的变换过程一致,为避免重复,此处不再赘述。
S503:将训练特征输入至简单递归层进行预测,以确定特征掩蔽层对应的掩蔽向量。
具体地,步骤S503的具体实现过程与步骤S203中的具体实现保持一致,此处不再赘述。
S504:通过特征掩蔽层,根据掩蔽向量对伽柏变换特征进行过滤,得到降噪后的伽柏变换特征。
具体地,步骤S504的具体实现过程与步骤S204中的具体实现保持一致,此处不再赘述。
S505:通过反卷积层对降噪后的伽柏变换特征进行还原,得到预测降噪语音。
具体地,步骤S505的具体实现过程与步骤S205中的具体实现保持一致,此处不再赘述。
S506:采用最小均方误差函数,根据预测降噪语音与干净语音,计算模型损失。
具体地,采用如下公式计算模型损失,其中,f(xk)表示预测降噪语音;yk为干净语音;N表示batch size。
S507:根据模型损失更新原始神经网络,得到语音增强模型。
具体地,通过上述损失函数对模型参数进行求导(其中,l表示模型损失,θ表示模型参数,例如掩蔽向量、层间连接权值等,G表示模型梯度),以得到每一模型参数的梯度,进而采用误差反向传播将梯度反传,实现对原始神经网络的更新,当模型更新达到预设的收敛条件(例如损失最小),则停止更新,得到语音增强模型。上述误差反向传播的更新过程与传统神经网络的误差反传更新一致,此处不再赘述。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种基于卷积神经网络的语音增强装置,该基于卷积神经网络的语音增强装置与上述实施例中基于卷积神经网络的语音增强方法一一对应。如图7所示,该基于卷积神经网络的语音增强装置包括数据获取模块10、语音增强模块20、伽柏变换模块30、预测模块40、过滤模块50以及还原模块60。各功能模块详细说明如下:
数据获取模块10,用于获取待降噪语音的时域波形图以及语音增强模型;其中,语音增强模型包括依次连接的伽柏卷积层、简单递归层、特征掩蔽层以及反卷积层。
语音增强模块20,用于将所述待降噪语音的时域波形图输入语音增强模型,其中,所述语音增强模型包括依次连接的伽柏卷积层、简单递归层、特征掩蔽层以及反卷积层;所述伽柏卷积层包括多个复数滤波器。
伽柏变换模块30,用于通过多个复数滤波器对时域波形图进行伽柏变换,提取待降噪语音的伽柏变换特征。
预测模块40,用于将伽柏变换特征输入至简单递归层进行预测,以确定特征掩蔽层对应的掩蔽向量。
过滤模块50,用于通过特征掩蔽层,根据掩蔽向量对伽柏变换特征进行过滤,得到降噪后的伽柏变换特征。
还原模块60,用于通过反卷积层对降噪后的伽柏变换特征进行还原,得到目标降噪语音。
具体地,复数滤波器为C个;每个复数滤波器包括两个时间相邻的伽柏滤波器。
具体地伽柏变换模块包括卷积处理单元和伽柏变换特征获取单元。
卷积处理单元,用于采用相邻的两个复数滤波器分别对时域波形图进行卷积处理,得到第一特征和第二特征。
复数特征获取单元,用于将第一特征的模的平方和第二特征的模的平方相加,得到每一复数滤波器对应的复数特征。
伽柏变换特征获取单元,用于基于每一复数滤波器对应的复数特征,得到C个特征通道的伽柏变换特征。
具体地,过滤模块包括掩蔽向量获取单元和点乘处理单元。
掩蔽向量获取单元,用于简单递归层确定的掩蔽向量。
点乘处理单元,用于将掩蔽向量与伽柏变换特征进行点乘处理,得到降噪后的伽柏变换特征。
具体地,该基于卷积神经网络的语音增强装置还包括训练数据获取模块、训练特征提取模块、掩蔽向量确定模块、降噪模块、反卷积模块、模型损失获取模块以及模型更新模块。
训练数据获取模块,用于获取待训练语音数据,并初始化原始神经网络;其中,原始神经网络包括依次连接的伽柏卷积层、简单递归层、特征掩蔽层以及反卷积层;待训练语音数据包括带噪语音以及对应的干净语音。
训练特征提取模块,用于通过伽柏卷积层对带噪语音进行伽柏变换,提取待训练的语音数据的训练特征。
掩蔽向量确定模块,用于将训练特征输入至简单递归层进行预测,以确定特征掩蔽层对应的掩蔽向量。
降噪模块,用于通过特征掩蔽层,根据掩蔽向量对伽柏变换特征进行过滤,得到降噪后的伽柏变换特征。
反卷积模块,用于通过反卷积层对降噪后的伽柏变换特征进行还原,得到预测降噪语音。
模型损失获取模块,用于采用最小均方误差函数,根据预测降噪语音与干净语音,计算模型损失。
模型更新模块,用于根据模型损失更新原始神经网络,得到语音增强模型。
关于基于卷积神经网络的语音增强装置的具体限定可以参见上文中对于基于卷积神经网络的语音增强方法的限定,在此不再赘述。上述基于卷积神经网络的语音增强装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以为服务器或终端设备,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行基于卷积神经网络的语音增强方法过程中生成或获取的数据,如语音增强模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于卷积神经网络的语音增强方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如下步骤:
获取待降噪语音的时域波形图;
将所述待降噪语音的时域波形图输入语音增强模型,其中,所述语音增强模型包括依次连接的伽柏卷积层、简单递归层、特征掩蔽层以及反卷积层;所述伽柏卷积层包括多个复数滤波器;
通过多个所述复数滤波器对时域波形图进行伽柏变换,提取所述待降噪语音的伽柏变换特征;
将所述伽柏变换特征输入至所述简单递归层进行预测,以确定所述特征掩蔽层对应的掩蔽向量;
通过特征掩蔽层,根据所述掩蔽向量对所述伽柏变换特征进行过滤,得到降噪后的伽柏变换特征;
通过所述反卷积层对所述降噪后的伽柏变换特征进行还原,得到目标降噪语音。
或者,处理器执行计算机程序时实现基于卷积神经网络的语音增强装置这一实施例中的各模块/单元的功能,例如图7所示的各模块/单元的功能,为避免重复,这里不再赘述。
在一实施例中,提供一计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如下步骤:
获取待降噪语音的时域波形图;
将所述待降噪语音的时域波形图输入语音增强模型,其中,所述语音增强模型包括依次连接的伽柏卷积层、简单递归层、特征掩蔽层以及反卷积层;所述伽柏卷积层包括多个复数滤波器;
通过多个所述复数滤波器对时域波形图进行伽柏变换,提取所述待降噪语音的伽柏变换特征;
将所述伽柏变换特征输入至所述简单递归层进行预测,以确定所述特征掩蔽层对应的掩蔽向量;
通过特征掩蔽层,根据所述掩蔽向量对所述伽柏变换特征进行过滤,得到降噪后的伽柏变换特征;
通过所述反卷积层对所述降噪后的伽柏变换特征进行还原,得到目标降噪语音。
或者,该计算机程序被处理器执行时实现上述基于卷积神经网络的语音增强装置这一实施例中的各模块/单元的功能,例如图7所示的各模块/单元的功能,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于卷积神经网络的语音增强方法,其特征在于,包括:
获取待训练语音数据,并初始化原始神经网络;其中,所述原始神经网络包括依次连接的伽柏卷积层、简单递归层、特征掩蔽层以及反卷积层;所述待训练语音数据包括带噪语音以及对应的干净语音;
通过伽柏卷积层对所述带噪语音进行伽柏变换,提取待训练的语音数据的训练特征;
将所述训练特征输入至所述简单递归层进行预测,以确定所述特征掩蔽层对应的掩蔽向量;
通过特征掩蔽层,根据所述掩蔽向量对伽柏变换特征进行过滤,得到降噪后的伽柏变换特征;
通过所述反卷积层对所述降噪后的伽柏变换特征进行还原,得到预测降噪语音;
采用最小均方误差函数,根据所述预测降噪语音与所述干净语音,计算模型损失;
根据所述模型损失更新所述原始神经网络,得到语音增强模型;
获取待降噪语音的时域波形图;
将所述待降噪语音的时域波形图输入语音增强模型,其中,所述语音增强模型包括依次连接的伽柏卷积层、简单递归层、特征掩蔽层以及反卷积层;所述伽柏卷积层包括多个一维的复数滤波器,所述复数滤波器为C个,每个所述复数滤波器包括两个时间相邻的伽柏滤波器;
通过多个所述复数滤波器对时域波形图进行伽柏变换,提取所述待降噪语音的伽柏变换特征,包括:采用时间相邻的两个所述伽柏滤波器分别对所述时域波形图进行卷积处理,得到第一特征和第二特征;
将所述第一特征的模的平方和所述第二特征的模的平方相加,得到每一所述复数滤波器对应的复数特征;
基于每一所述复数滤波器对应的复数特征,得到C个特征通道的所述伽柏变换特征;
将所述伽柏变换特征输入至所述简单递归层进行预测,以确定所述特征掩蔽层对应的掩蔽向量;
通过特征掩蔽层,根据所述掩蔽向量对所述伽柏变换特征进行过滤,得到降噪后的伽柏变换特征;
通过所述反卷积层对所述降噪后的伽柏变换特征进行还原,得到目标降噪语音。
2.如权利要求1所述基于卷积神经网络的语音增强方法,其特征在于,所述通过特征掩蔽层,根据所述掩蔽向量对所述伽柏变换特征进行过滤,得到降噪后的伽柏变换特征,包括:
获取所述简单递归层确定的所述掩蔽向量;
将所述掩蔽向量与所述伽柏变换特征进行点乘处理,得到所述降噪后的伽柏变换特征。
3.如权利要求1所述的基于卷积神经网络的语音增强方法,其特征在于,所述简单递归层包括多个简单循环单元。
4.一种基于卷积神经网络的语音增强装置,实现如权利要求1-3任一项所述基于卷积神经网络的语音增强方法,其特征在于,包括:
数据获取模块,用于获取待降噪语音的时域波形图;
语音增强模块,用于将所述待降噪语音的时域波形图输入语音增强模型,其中,所述语音增强模型包括依次连接的伽柏卷积层、简单递归层、特征掩蔽层以及反卷积层;所述伽柏卷积层包括多个复数滤波器;
伽柏变换模块,用于通过多个所述复数滤波器对时域波形图进行伽柏变换,提取所述待降噪语音的伽柏变换特征;
预测模块,用于将所述伽柏变换特征输入至所述简单递归层进行预测,以确定所述特征掩蔽层对应的掩蔽向量;
过滤模块,用于通过特征掩蔽层,根据所述掩蔽向量对所述伽柏变换特征进行过滤,得到降噪后的伽柏变换特征;
还原模块,用于通过所述反卷积层对所述降噪后的伽柏变换特征进行还原,得到目标降噪语音。
5.如权利要求4所述的基于卷积神经网络的语音增强装置,其特征在于,所述伽柏变换模块包括:
卷积处理单元,用于采用时间相邻的两个所述伽柏滤波器分别对所述时域波形图进行卷积处理,得到第一特征和第二特征;
复数特征获取单元,用于将所述第一特征的模的平方和所述第二特征的模的平方相加,得到每一所述复数滤波器对应的复数特征;
伽柏变换特征获取单元,用于基于每一所述复数滤波器对应的复数特征,得到C个特征通道的所述伽柏变换特征。
6.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述基于卷积神经网络的语音增强方法的步骤。
7.一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述基于卷积神经网络的语音增强方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110605515.4A CN113345463B (zh) | 2021-05-31 | 2021-05-31 | 基于卷积神经网络的语音增强方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110605515.4A CN113345463B (zh) | 2021-05-31 | 2021-05-31 | 基于卷积神经网络的语音增强方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113345463A CN113345463A (zh) | 2021-09-03 |
CN113345463B true CN113345463B (zh) | 2024-03-01 |
Family
ID=77473658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110605515.4A Active CN113345463B (zh) | 2021-05-31 | 2021-05-31 | 基于卷积神经网络的语音增强方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113345463B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114283829B (zh) * | 2021-12-13 | 2023-06-16 | 电子科技大学 | 一种基于动态门控卷积循环网络的语音增强方法 |
CN114067820B (zh) * | 2022-01-18 | 2022-06-28 | 深圳市友杰智新科技有限公司 | 语音降噪模型的训练方法、语音降噪方法和相关设备 |
CN114842863B (zh) * | 2022-04-19 | 2023-06-02 | 电子科技大学 | 一种基于多分支-动态合并网络的信号增强方法 |
CN116110422B (zh) * | 2023-04-13 | 2023-07-04 | 南京熊大巨幕智能科技有限公司 | 全向级联麦克风阵列降噪方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109326299A (zh) * | 2018-11-14 | 2019-02-12 | 平安科技(深圳)有限公司 | 基于全卷积神经网络的语音增强方法、装置及存储介质 |
CN109841226A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 一种基于卷积递归神经网络的单通道实时降噪方法 |
CN110136737A (zh) * | 2019-06-18 | 2019-08-16 | 北京拙河科技有限公司 | 一种语音降噪方法及装置 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10529320B2 (en) * | 2016-12-21 | 2020-01-07 | Google Llc | Complex evolution recurrent neural networks |
CN111344778B (zh) * | 2017-11-23 | 2024-05-28 | 哈曼国际工业有限公司 | 用于语音增强的方法和系统 |
-
2021
- 2021-05-31 CN CN202110605515.4A patent/CN113345463B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109841226A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 一种基于卷积递归神经网络的单通道实时降噪方法 |
CN109326299A (zh) * | 2018-11-14 | 2019-02-12 | 平安科技(深圳)有限公司 | 基于全卷积神经网络的语音增强方法、装置及存储介质 |
CN110136737A (zh) * | 2019-06-18 | 2019-08-16 | 北京拙河科技有限公司 | 一种语音降噪方法及装置 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113345463A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113345463B (zh) | 基于卷积神经网络的语音增强方法、装置、设备及介质 | |
Shlezinger et al. | Model-based deep learning: On the intersection of deep learning and optimization | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN111971743B (zh) | 用于改进的实时音频处理的系统、方法和计算机可读介质 | |
Kong et al. | On fast sampling of diffusion probabilistic models | |
JP6765445B2 (ja) | ニューラルネットワークを使用した周波数ベースのオーディオ分析 | |
CN113191240B (zh) | 轴承故障诊断的多任务深度神经网络方法及装置 | |
CN114067826B (zh) | 语音降噪方法、装置、设备及存储介质 | |
CN113761805B (zh) | 一种基于时域卷积网络的可控源电磁数据去噪方法、系统、终端及可读存储介质 | |
CN111316352A (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
CN113205820B (zh) | 一种用于声音事件检测的声音编码器的生成方法 | |
CN112711072A (zh) | 基于Res U-net的三维地震数据断层识别方法 | |
Andriyanov et al. | Pattern recognition on radar images using augmentation | |
CN113284001A (zh) | 用电量预测方法、装置、计算机设备和存储介质 | |
CN115758082A (zh) | 一种轨道交通变压器故障诊断方法 | |
CN114241491B (zh) | 一种基于轻量级深度学习网络的手写字母识别方法 | |
CN113420870A (zh) | 用于水声目标识别的U-Net结构生成对抗网络及方法 | |
CN115859048A (zh) | 一种局放信号的噪声处理方法及装置 | |
CN116009080A (zh) | 一种地震波阻抗反演方法及系统、电子设备、存储介质 | |
CN113688655B (zh) | 干扰信号的识别方法、装置、计算机设备和存储介质 | |
CN115273814A (zh) | 伪语音检测方法、装置、计算机设备和存储介质 | |
CN113920124B (zh) | 基于分割和误差引导的脑神经元迭代分割方法 | |
CN112885367B (zh) | 基频获取方法、装置、计算机设备和存储介质 | |
CN111862931B (zh) | 一种语音生成方法及装置 | |
CN114974267A (zh) | 鸟语分类模型训练方法及鸟语识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |