CN109326299A - 基于全卷积神经网络的语音增强方法、装置及存储介质 - Google Patents
基于全卷积神经网络的语音增强方法、装置及存储介质 Download PDFInfo
- Publication number
- CN109326299A CN109326299A CN201811350813.8A CN201811350813A CN109326299A CN 109326299 A CN109326299 A CN 109326299A CN 201811350813 A CN201811350813 A CN 201811350813A CN 109326299 A CN109326299 A CN 109326299A
- Authority
- CN
- China
- Prior art keywords
- layer
- neural network
- node
- output
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 105
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 238000003062 neural network model Methods 0.000 claims description 82
- 238000012360 testing method Methods 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 31
- 239000013598 vector Substances 0.000 claims description 9
- 230000005284 excitation Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明属于人工智能领域,本发明公开了一种基于全卷积神经网络的语音增强方法,包括:构建全卷积神经网络模型,所述全卷积神经网络模型包括输入层、隐含层和输出层,所述隐含层为多个卷积层,每个卷积层均具有多个滤波器;训练所述全卷积神经网络模型;将原始语音信号输入经过训练的全卷积神经网络模型;输出增强语音信号。本发明的全卷积神经网络模型中,删除了全连接层,仅包含卷积层,大大减小了神经网络的参数,使得全卷积神经网络模型可以适用于限制内存的移动设备中,并且每个输出样本仅仅依赖相邻输入,可以通过更少的权重值很好地保留语音信号的原始信息和空间排列信息。本发明还公开了一种电子装置和计算机可读存储介质。
Description
技术领域
本发明涉及语音技术领域,尤其涉及一种基于全卷积神经网络的语音增强方法、装置及存储介质。
背景技术
语音增强,是指干净语音在现实的生活场景中受到各种噪声干扰时,需要通过一定的方法将噪声滤除,以提升该段语音的质量和可懂度的技术。日常生活中,麦克风采集的语音通常是带有不同噪声的“污染”语音,语音增强的主要目的就是从这些被“污染”的带噪语音中恢复出干净语音。语音增强涉及的应用领域十分广泛,包括语音通话、电话会议、场景录音、军事窃听、助听器设备和语音识别设备等,并成为许多语音编码和识别系统的预处理模块。以语音增强应用于助听器为例,通常的助听器,只是实现一个语音的基本放大,复杂一些的会进行声压级压缩以实现对患者听觉范围的补偿,但是如果听觉场景比较复杂,患者听到的语音中不仅包含了放大后的语音也包含了很多噪声,时间一长势必会对患者的听觉系统造成二次损害,因此高端的数字助听器设备中,语音增强也成为不容忽视的一个重要方面。
语音增强应用在语音相关应用的前端处理过程中,确保把语音从带噪信号中分离出来,以便后端识别模型正确识别语音的内容。现有的语音增强方法包括无监督语音增强方法和有监督语音增强方法,其中,无监督语音增强方法是提取语音信号的幅度谱或对数谱,相位信息被忽略,当将语音信号合成到时域时,相位信号不变的应用带噪语音信号的相位信息,会减弱增强语音信号的质量。有监督语音增强方法是基于神经网络的语音增强方法,而采用带有全连接层的深度神经网络(DNN,Deep Neural Network)和卷积神经网络(CNN,Convolutional Neural Network)进行有监督的语音增强,不能很好的表示模型的高低频成分,并且其中的全连接层也不能很好地保留信号的原始信息和空间排列信息。
发明内容
鉴于以上问题,本发明提供一种基于全卷积神经网络的语音增强方法、装置及存储介质,以解决现有的语音增强方法的神经网络模型不能很好地保留语音信号的原始信息和空间排列信息的问题。
为了实现上述目的,本发明提供一种基于全卷积神经网络的语音增强方法,包括:
构建全卷积神经网络模型,所述全卷积神经网络模型包括输入层、隐含层和输出层,所述隐含层为多个卷积层,每个卷积层均具有多个滤波器,所述输出层的输出模型为:
yt=FT*Rt (1)
其中,yt是输出层的第t个节点,FT是滤波器的权重矩阵的转置,F∈Rf×1,f表示滤波器尺寸,Rt是隐含层的第t个节点;
训练所述全卷积神经网络模型;
将原始语音信号输入经过训练的全卷积神经网络模型;
输出增强语音信号。
优选地,根据下式构建全卷积神经网络模型的隐含层的模型:
其中,表示第1个隐含层的第j个节点的输出值,xi表示输入层的第i个节点的变量,表示输入层第i个节点和第1个隐含层第k个节点的连接权重值,表示第1个隐含层第k个节点的偏移量,n表示输入层的节点数,表示第l个隐含层的第k个节点的输出值,表示第l-1个隐含层的第j个节点的输出值,表示第l个隐含层的第k个节点和第l-1个隐含层的第j个节点的连接权重值,表示第l个隐含层第k个节点的偏移量,H为隐含层的节点数,f为激励函数。
优选地,训练所述全卷积神经网络模型包括:
对所述全卷积神经网络模型的参数进行初始赋值,所述参数包括输入层和隐含层的连接权重值、相邻隐含层之间的连接权重值和隐含层的偏移量;
构建样本集,并将所述样本集按比例划分为训练样本集和测试样本集;
输入所述训练样本集中的一个训练样本,并从所述训练样本中提取特征向量;
将训练样本的输入数据代入公式(1)-(3),计算隐含层各节点的输出值和输出层各节点的输出值;
计算输出层各节点误差:
ek=ok-yk (4)
其中,ek表示输出层第k个节点的误差,ok表示输出层第k个节点的实际值,yk表示输出层第k个节点的输出值;
基于误差反向传播更新所述全卷积神经网络模型的参数;
输入下一个训练样本,继续更新全卷积神经网络模型的参数,直至训练样本集中的所有训练样本训练结束,完成一次迭代;
设定全卷积神经网络模型的损失函数:
其中,n表示输出层的节点数,ok表示输出层第k个节点的实际值,yk表示输出层第k个节点的输出值;
判断训练是否满足结束条件,如果满足结束条件,则结束训练,输出经过训练的全卷积神经网络模型,如果不满足结束条件,将继续训练模型,其中,所述结束条件包括第一结束条件或/和第二结束条件中的一个或两个,第一结束条件为当前迭代次数大于设定的最大迭代次数,第二结束条件为连续多次迭代时损失函数值的变化小于设定目标值。
优选地,根据下式计算测试误差:
其中,MSE表示测试误差,N表示测试样本集的样本个数,表示测试样本集的样本z在输出层第k个节点的实际值,表示测试样本集的样本z在输出层第k个节点的输出值。
优选地,测试样本集中的测试样本与训练样本集中的训练样本的信噪比不同,噪声类型也不同。
优选地,所述全卷积神经网络模型包括输入层、六个卷积层和输出层,每个卷积层均具有1024个节点,卷积跨度为1。
为了实现上述目的,本发明的另一个方面是提供一种电子装置,该电子装置包括:存储器和处理器,所述存储器中包括语音增强程序,所述语音增强程序被所述处理器执行时实现如下步骤:
构建全卷积神经网络模型,所述全卷积神经网络模型包括输入层、隐含层和输出层,所述隐含层为多个卷积层,每个卷积层均具有多个滤波器,所述输出层的输出模型为:
yt=FT*Rt (1)
其中,yt是输出层的第t个节点,FT是滤波器的权重矩阵的转置,F∈Rf×1,f表示滤波器尺寸,Rt是隐含层的第t个节点;
训练所述全卷积神经网络模型;
将原始语音信号输入经过训练的全卷积神经网络模型;
输出增强语音信号。
优选地,所述全卷积神经网络模型中隐含层的模型为:
其中,表示第1个隐含层的第j个节点的输出值,xi表示输入层的第i个节点的变量,表示输入层第i个节点和第1个隐含层第k个节点的连接权重值,表示第1个隐含层第k个节点的偏移量,n表示输入层的节点数,表示第l个隐含层的第k个节点的输出值,表示第l-1个隐含层的第j个节点的输出值,表示第l个隐含层的第k个节点和第l-1个隐含层的第j个节点的连接权重值,表示第l个隐含层第k个节点的偏移量,H为隐含层的节点数,f为激励函数。
优选地,处理器训练所述全卷积神经网络模型包括:
对所述全卷积神经网络模型的参数进行初始赋值,所述参数包括输入层和隐含层的连接权重值、相邻隐含层之间的连接权重值和隐含层的偏移量;
构建样本集,并将所述样本集按比例划分为训练样本集和测试样本集;
输入所述训练样本集中的一个训练样本,并从所述训练样本中提取特征向量;
将训练样本的输入数据代入公式(1)-(3),计算隐含层各节点的输出值和输出层各节点的输出值;
计算输出层各节点误差:
ek=ok-yk (4)
其中,ek表示输出层第k个节点的误差,ok表示输出层第k个节点的实际值,yk表示输出层第k个节点的输出值;
基于误差反向传播更新所述全卷积神经网络模型的参数;
输入下一个训练样本,继续更新全卷积神经网络模型的参数,直至训练样本集中的所有训练样本训练结束,完成一次迭代;
设定全卷积神经网络模型的损失函数:
其中,n表示输出层的节点数,ok表示输出层第k个节点的实际值,yk表示输出层第k个节点的输出值;
判断训练是否满足结束条件,如果满足结束条件,则结束训练,输出经过训练的全卷积神经网络模型,如果不满足结束条件,将继续训练模型,其中,所述结束条件包括第一结束条件或/和第二结束条件中的一个或两个,第一结束条件为当前迭代次数大于设定的最大迭代次数,第二结束条件为连续多次迭代时损失函数值的变化小于设定目标值。
为了实现上述目的,本发明的再一个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中包括语音增强程序,所述语音增强程序被处理器执行时,实现如上所述的语音增强方法的步骤。
相对于现有技术,本发明具有以下优点和有益效果:
本发明通过构建全卷积神经网络模型作为语音增强模型,输入原始语音信号进行处理,得到增强语音信号。全卷积神经网络模型中,删除了全连接层,仅包含卷积层,大大减小了神经网络的参数,使得全卷积神经网络模型可以适用于限制内存的移动设备中,并且每个输出样本仅仅依赖相邻输入,可以通过相关的更少的权重值很好地保留语音信号的原始信息和空间排列信息。
附图说明
图1为本发明所述基于全卷积神经网络的语音增强方法的流程示意图;
图2为本发明中全卷积神经网络模型结构示意图;
图3为本发明中语音增强程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,仅仅用以解释本发明,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
图1为本发明所述基于全卷积神经网络的语音增强方法的流程示意图,如图1所示,本发明所述基于全卷积神经网络的语音增强方法包括以下步骤:
步骤S1、构建全卷积神经网络模型,如图2所示,所述全卷积神经网络模型包括输入层、隐含层和输出层,所述隐含层为多个卷积层,每个卷积层均具有多个滤波器,所述输出层的输出模型为:
yt=FT*Rt (1)
其中,yt是输出层的第t个节点,FT是滤波器的权重矩阵的转置,F∈Rf×1(f表示滤波器尺寸),Rt是隐含层的第t个节点;
步骤S2、训练所述全卷积神经网络模型;
步骤S3、将原始语音信号输入经过训练的全卷积神经网络模型;
步骤S4、输出增强语音信号。
本发明中,滤波器的权重矩阵F在卷积操作过程中是共享的,因此,无论输出层节点是高频部分还是低频部分,隐含层节点Rt与相邻的两个节点Rt-1和Rt+1不会很相似,隐含层节点与相邻节点是否相似取决于原始的输入层节点的输入,使得全卷积神经网络可以很好地保留原始输入信息。
本发明中通过构建全卷积神经网络模型作为语音增强模型,输入原始语音信号进行处理,得到增强语音信号。全卷积神经网络模型中,删除了全连接层,仅包含卷积层,大大减小了神经网络的参数,使得全卷积神经网络模型可以适应限制内存的移动设备中,例如手机等移动终端,并且每个输出样本仅仅依赖相邻输入,可以通过相关的更少的权重值很好地保留语音信号的原始信息和空间排列信息。
本发明的一个可选实施例中,所述全卷积神经网络模型包括:输入层、六个卷积层(具有padding)和输出层,每个卷积层均具有1024个节点,卷积跨度为1,每个卷积层均具有15个尺寸为11的滤波器,根据下式构建全卷积神经网络模型的隐含层的模型:
其中,表示第1个隐含层的第j个节点的输出值,xi表示输入层的第i个节点的变量,表示输入层第i个节点和第1个隐含层第k个节点的连接权重值,表示第1个隐含层第k个节点的偏移量,n表示输入层的节点数,表示第l个隐含层的第k个节点的输出值,表示第l-1个隐含层的第j个节点的输出值,表示第l个隐含层的第k个节点和第l-1个隐含层的第j个节点的连接权重值,表示第l个隐含层第k个节点的偏移量,H为隐含层的节点数,f为激励函数,选择PReLUs激活函数。
本发明的一个可选实施例中,训练所述全卷积神经网络模型包括:
对所述全卷积神经网络模型的参数进行初始赋值,所述参数包括输入层和隐含层的连接权重值、相邻隐含层之间的连接权重值和隐含层的偏移量;
构建样本集,并将所述样本集按比例划分为训练样本集和测试样本集,其中,样本集中的样本可以从TIMIT语料库中随机选取,训练样本集和测试样本集中样本个数的比例为6:1,例如,从TIMIT语料库中随机选取700个短语,其中的600个短语构成训练样本集,其余的100个短语构成测试样本集,训练样本集中包含5种信噪比下的5种噪声类型(白噪声、粉噪声、办公室噪声、超市噪声和街道噪声),测试样本集中包含与训练样本集中相同或不同的信噪比和噪声类型,信噪比可以不同,且噪声类型也可以不同,以使测试条件更加贴近真实。本发明中的训练样本集中仅列举出5种噪声类型,但本发明并不限于此。
输入所述训练样本集中的一个训练样本,并从所述训练样本中提取对数功率谱(LPS,Log power spectra)特征向量;例如,在输入的训练样本中,选取原始语音的512个采样点作为一帧,并且,每帧提取257维LPS向量作为特征向量。
将训练样本的输入数据代入公式(1)-(3),计算隐含层各节点的输出值和输出层各节点的输出值;
计算输出层各节点误差:
ek=ok-yk (4)
其中,ek表示输出层第k个节点的误差,ok表示输出层第k个节点的实际值,yk表示输出层第k个节点的输出值;
基于误差反向传播更新所述全卷积神经网络模型的参数;
输入下一个训练样本,继续更新全卷积神经网络模型的参数,直至训练样本集中的所有训练样本训练结束,完成一次迭代;
设定全卷积神经网络模型的损失函数:
其中,n表示输出层的节点数,ok表示输出层第k个节点的实际值,yk表示输出层第k个节点的输出值;
判断训练是否满足结束条件,如果满足结束条件,则结束训练,输出经过训练的全卷积神经网络模型,如果不满足结束条件,将继续训练模型,其中,所述结束条件包括第一结束条件或/和第二结束条件中的一个或两个,第一结束条件为当前迭代次数大于设定的最大迭代次数,第二结束条件为连续多次迭代时损失函数值的变化小于设定目标值。
优选地,根据下式计算测试误差:
其中,MSE表示测试误差,N表示测试样本集的样本个数,表示测试样本集的样本z在输出层第k个节点的实际值,表示测试样本集的样本z在输出层第k个节点的输出值。测试误差越小,表明构建的全卷积神经网络模型的精度越高。
本发明中,对全卷积神经网络模型的输出数据进行归一化处理,之后,再进行输出层节点误差的计算和测试误差的计算等,以减小测试误差,提高模型精度。
优选地,通过语音质量评价(PESQ,Perceptual evaluation of speech quality)评价语音质量,通过短时客观可懂度得分(STOI,Short Time ObjectiveIntelligibility)评价语音的可懂度。
通过本发明的全卷积神经网络模型进行语音增强,相对于包含全连接层的深度神经网络模型和卷积神经网络模型,PESQ和STOI均有所提高,PESQ可以提高0.5左右,STOI可以提高0.2-0.3左右。
本发明所述基于全卷积神经网络的语音增强方法应用于电子装置,电子装置可以是电视机、智能手机、平板电脑、计算机等终端设备。然而,电子装置并不限于所列举示例,电子装置可以是用户控制的通过语音识别技术处理用户命令的任何其他装置,通过对输入用户的语音进行语音增强处理,输出语音识别结果。
所述电子装置包括:存储器和处理器,所述存储器中包括语音增强程序,所述语音增强程序被所述处理器执行时实现如下步骤:
构建全卷积神经网络模型,所述全卷积神经网络模型包括输入层、隐含层和输出层,所述隐含层为多个卷积层,每个卷积层均具有多个滤波器,所述输出层的输出模型为:
yt=FT*Rt (1)
其中,yt是输出层的第t个节点,FT是滤波器的权重矩阵的转置,F∈Rf×1,f表示滤波器尺寸,Rt是隐含层的第t个节点;
训练所述全卷积神经网络模型;
将原始语音信号输入经过训练的全卷积神经网络模型;
输出增强语音信号。
存储器包括至少一种类型的可读存储介质,可以是闪存、硬盘、光盘等非易失性存储介质,也可以是插接式硬盘等,且并不限于此,可以是以非暂时性方式存储指令或软件以及任何相关联的数据文件并向处理器提供指令或软件程序以使该处理器能够执行指令或软件程序的任何装置。
所述电子装置还包括语音接收器,通过电子装置的麦克风等设备接收用户的语音信号,再对输入的语音信号进行语音增强处理。
处理器可以是中央处理器、微处理器或其他数据处理芯片等,可以运行存储器中的存储程序。
本发明的一个可选实施例中,所述全卷积神经网络模型中隐含层的模型为:
其中,表示第1个隐含层的第j个节点的输出值,xi表示输入层的第i个节点的变量,表示输入层第i个节点和第1个隐含层第k个节点的连接权重值,表示第1个隐含层第k个节点的偏移量,n表示输入层的节点数,表示第l个隐含层的第k个节点的输出值,表示第l-1个隐含层的第j个节点的输出值,表示第l个隐含层的第k个节点和第l-1个隐含层的第j个节点的连接权重值,表示第l个隐含层第k个节点的偏移量,H为隐含层的节点数,f为激励函数,其中,激励函数可以选择PReLUs激活函数、Sigmoid函数、tanh函数、Relu函数等函数。
本发明的一个实施例中,处理器训练所述全卷积神经网络模型的步骤包括:
对所述全卷积神经网络模型的参数进行初始赋值,所述参数包括输入层和隐含层的连接权重值、相邻隐含层之间的连接权重值和隐含层的偏移量;
构建样本集,并将所述样本集按比例划分为训练样本集和测试样本集,其中,样本集中的样本可以从TIMIT语料库中随机选取,训练样本集和测试样本集中样本个数的比例为6:1,例如,从TIMIT语料库中随机选取700个短语,其中的600个短语构成训练样本集,其余的100个短语构成测试样本集,训练样本集中包含5种信噪比下的5种噪声类型(白噪声、粉噪声、办公室噪声、超市噪声和街道噪声),测试样本集中包含与训练样本集中相同或不同的信噪比和噪声类型,以使测试条件更加贴近真实。本发明中的训练样本集中仅列举出5种噪声类型,但本发明并不限于此;
输入所述训练样本集中的一个训练样本,并从所述训练样本中提取特征向量;
将训练样本的输入数据代入公式(1)-(3),计算隐含层各节点的输出值和输出层各节点的输出值;
计算输出层各节点误差:
ek=ok-yk (4)
其中,ek表示输出层第k个节点的误差,ok表示输出层第k个节点的实际值,yk表示输出层第k个节点的输出值;
基于误差反向传播更新所述全卷积神经网络模型的参数;
输入下一个训练样本,继续更新全卷积神经网络模型的参数,直至训练样本集中的所有训练样本训练结束,完成一次迭代;
设定全卷积神经网络模型的损失函数:
其中,n表示输出层的节点数,ok表示输出层第k个节点的实际值,yk表示输出层第k个节点的输出值;
判断训练是否满足结束条件,如果满足结束条件,则结束训练,输出经过训练的全卷积神经网络模型,如果不满足结束条件,将继续训练模型,其中,所述结束条件包括第一结束条件或/和第二结束条件中的一个或两个,第一结束条件为当前迭代次数大于设定的最大迭代次数,第二结束条件为连续多次迭代时损失函数值的变化小于设定目标值。
优选地,根据下式计算测试误差:
其中,MSE表示测试误差,N表示测试样本集的样本个数,表示测试样本集的样本z在输出层第k个节点的实际值,表示测试样本集的样本z在输出层第k个节点的输出值。
在其他实施例中,语音增强程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器中,并由处理器执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。所述语音增强程序可以被分割为:模型构建模块1、模型训练模块2、输入模块3和输出模块4。上述模块所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
模型构建模块1,构建全卷积神经网络模型,所述全卷积神经网络模型包括输入层、隐含层和输出层,所述隐含层为多个卷积层,每个卷积层均具有多个滤波器,所述输出层的输出模型为:
yt=FT*Rt (1)
其中,t是节点的索引,yt是输出层的第t个节点,F是滤波器,F∈Rf×1,f表示滤波器尺寸,Rt是隐含层的第t个节点;
模型训练模块2,训练所述全卷积神经网络模型;
输入模块3,将原始语音信号输入经过训练的全卷积神经网络模型;
输出模块4,输出增强语音信号。
本发明的一个实施例中,计算机可读存储介质可以是任何包含或存储程序或指令的有形介质,其中的程序可以被执行,通过存储的程序指令相关的硬件实现相应的功能。例如,计算机可读存储介质可以是计算机磁盘、硬盘、随机存取存储器、只读存储器等。本发明并不限于此,可以是以非暂时性方式存储指令或软件以及任何相关数据文件或数据结构并且可提供给处理器以使处理器执行其中的程序或指令的任何装置。所述计算机可读存储介质中包括语音增强程序,所述语音增强程序被处理器执行时,实现如下的语音增强方法:
构建全卷积神经网络模型,所述全卷积神经网络模型包括输入层、隐含层和输出层,所述隐含层为多个卷积层,每个卷积层均具有多个滤波器,所述输出层的输出模型为:
yt=FT*Rt (1)
其中,yt是输出层的第t个节点,FT是滤波器的权重矩阵的转置,F∈Rf×1,f表示滤波器尺寸,Rt是隐含层的第t个节点;
训练所述全卷积神经网络模型;
将原始语音信号输入经过训练的全卷积神经网络模型;
输出增强语音信号。
优选地,根据下式构建全卷积神经网络模型的隐含层的模型:
其中,表示第1个隐含层的第j个节点的输出值,xi表示输入层的第i个节点的变量,表示输入层第i个节点和第1个隐含层第k个节点的连接权重值,表示第1个隐含层第k个节点的偏移量,n表示输入层的节点数,表示第l个隐含层的第k个节点的输出值,表示第l-1个隐含层的第j个节点的输出值,表示第l个隐含层的第k个节点和第l-1个隐含层的第j个节点的连接权重值,表示第l个隐含层第k个节点的偏移量,H为隐含层的节点数,f为激励函数。
优选地,训练所述全卷积神经网络模型包括:
对所述全卷积神经网络模型的参数进行初始赋值,所述参数包括输入层和隐含层的连接权重值、相邻隐含层之间的连接权重值和隐含层的偏移量;
构建样本集,并将所述样本集按比例划分为训练样本集和测试样本集;
输入所述训练样本集中的一个训练样本,并从所述训练样本中提取特征向量;
将训练样本的输入数据代入公式(1)-(3),计算隐含层各节点的输出值和输出层各节点的输出值;
计算输出层各节点误差:
ek=ok-yk (4)
其中,ek表示输出层第k个节点的误差,ok表示输出层第k个节点的实际值,yk表示输出层第k个节点的输出值;
基于误差反向传播更新所述全卷积神经网络模型的参数;
输入下一个训练样本,继续更新全卷积神经网络模型的参数,直至训练样本集中的所有训练样本训练结束,完成一次迭代;
设定全卷积神经网络模型的损失函数:
其中,n表示输出层的节点数,ok表示输出层第k个节点的实际值,yk表示输出层第k个节点的输出值;
判断训练是否满足结束条件,如果满足结束条件,则结束训练,输出经过训练的全卷积神经网络模型,如果不满足结束条件,将继续训练模型,其中,所述结束条件包括第一结束条件或/和第二结束条件中的一个或两个,第一结束条件为当前迭代次数大于设定的最大迭代次数,第二结束条件为连续多次迭代时损失函数值的变化小于设定目标值。
优选地,根据下式计算测试误差:
其中,MSE表示测试误差,N表示测试样本集的样本个数,表示测试样本集的样本z在输出层第k个节点的实际值,表示测试样本集的样本z在输出层第k个节点的输出值。
优选地,测试样本集中的测试样本与训练样本集中的训练样本的信噪比和噪声类型不同。
优选地,所述全卷积神经网络模型包括输入层、六个卷积层和输出层,每个卷积层均具有1024个节点,卷积跨度为1。
本发明之计算机可读存储介质的具体实施方式与上述语音增强方法、电子装置的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于全卷积神经网络的语音增强方法,应用于电子装置,其特征在于,
构建全卷积神经网络模型,所述全卷积神经网络模型包括输入层、隐含层和输出层,所述隐含层为多个卷积层,每个卷积层均具有多个滤波器,所述输出层的输出模型为:
yt=FT*Rt (1)
其中,yt是输出层的第t个节点,FT是滤波器的权重矩阵的转置,F∈Rf×1,f表示滤波器尺寸,Rt是隐含层的第t个节点;
训练所述全卷积神经网络模型;
将原始语音信号输入经过训练的全卷积神经网络模型;
输出增强语音信号。
2.根据权利要求1所述的基于全卷积神经网络的语音增强方法,其特征在于,根据下式构建全卷积神经网络模型的隐含层的模型:
其中,表示第1个隐含层的第j个节点的输出值,xi表示输入层的第i个节点的变量,表示输入层第i个节点和第1个隐含层第k个节点的连接权重值,表示第1个隐含层第k个节点的偏移量,n表示输入层的节点数,表示第l个隐含层的第k个节点的输出值,表示第l-1个隐含层的第j个节点的输出值,表示第l个隐含层的第k个节点和第l-1个隐含层的第j个节点的连接权重值,表示第l个隐含层第k个节点的偏移量,H为隐含层的节点数,f为激励函数。
3.根据权利要求2所述的基于全卷积神经网络的语音增强方法,其特征在于,训练所述全卷积神经网络模型包括:
对所述全卷积神经网络模型的参数进行初始赋值,所述参数包括输入层和隐含层的连接权重值、相邻隐含层之间的连接权重值和隐含层的偏移量;
构建样本集,并将所述样本集按比例划分为训练样本集和测试样本集;
输入所述训练样本集中的一个训练样本,并从所述训练样本中提取特征向量;
将训练样本的输入数据代入公式(1)-(3),计算隐含层各节点的输出值和输出层各节点的输出值;
计算输出层各节点误差:
ek=ok-yk (4)
其中,ek表示输出层第k个节点的误差,ok表示输出层第k个节点的实际值,yk表示输出层第k个节点的输出值;
基于误差反向传播更新所述全卷积神经网络模型的参数;
输入下一个训练样本,继续更新全卷积神经网络模型的参数,直至训练样本集中的所有训练样本训练结束,完成一次迭代;
设定全卷积神经网络模型的损失函数:
其中,n表示输出层的节点数,ok表示输出层第k个节点的实际值,yk表示输出层第k个节点的输出值;
判断训练是否满足结束条件,如果满足结束条件,则结束训练,输出经过训练的全卷积神经网络模型,如果不满足结束条件,将继续训练模型,其中,所述结束条件包括第一结束条件或/和第二结束条件中的一个或两个,第一结束条件为当前迭代次数大于设定的最大迭代次数,第二结束条件为连续多次迭代时损失函数值的变化小于设定目标值。
4.根据权利要求3所述的基于全卷积神经网络的语音增强方法,其特征在于,根据下式计算测试误差:
其中,MSE表示测试误差,N表示测试样本集的样本个数,表示测试样本集的样本z在输出层第k个节点的实际值,表示测试样本集的样本z在输出层第k个节点的输出值。
5.根据权利要求3所述的基于全卷积神经网络的语音增强方法,其特征在于,测试样本集中的测试样本与训练样本集中的训练样本的信噪比不同,且噪声类型也不同。
6.根据权利要求1至5中任一项所述的基于全卷积神经网络的语音增强方法,其特征在于,所述全卷积神经网络模型包括输入层、六个卷积层和输出层,每个卷积层均具有1024个节点,卷积跨度为1。
7.一种电子装置,其特征在于,该电子装置包括:存储器和处理器,所述存储器中包括语音增强程序,所述语音增强程序被所述处理器执行时实现如下步骤:
构建全卷积神经网络模型,所述全卷积神经网络模型包括输入层、隐含层和输出层,所述隐含层为多个卷积层,每个卷积层均具有多个滤波器,所述输出层的输出模型为:
yt=FT*Rt (1)
其中,yt是输出层的第t个节点,FT是滤波器的权重矩阵的转置,F∈Rf×1,f表示滤波器尺寸,Rt是隐含层的第t个节点;
训练所述全卷积神经网络模型;
将原始语音信号输入经过训练的全卷积神经网络模型;
输出增强语音信号。
8.根据权利要求7所述的电子装置,其特征在于,所述全卷积神经网络模型中隐含层的模型为:
其中,表示第1个隐含层的第j个节点的输出值,xi表示输入层的第i个节点的变量,表示输入层第i个节点和第1个隐含层第k个节点的连接权重值,表示第1个隐含层第k个节点的偏移量,n表示输入层的节点数,表示第l个隐含层的第k个节点的输出值,表示第l-1个隐含层的第j个节点的输出值,表示第l个隐含层的第k个节点和第l-1个隐含层的第j个节点的连接权重值,表示第l个隐含层第k个节点的偏移量,H为隐含层的节点数,f为激励函数。
9.根据权利要求8所述的电子装置,其特征在于,处理器训练所述全卷积神经网络模型包括:
对所述全卷积神经网络模型的参数进行初始赋值,所述参数包括输入层和隐含层的连接权重值、相邻隐含层之间的连接权重值和隐含层的偏移量;
构建样本集,并将所述样本集按比例划分为训练样本集和测试样本集;
输入所述训练样本集中的一个训练样本,并从所述训练样本中提取特征向量;
将训练样本的输入数据代入公式(1)-(3),计算隐含层各节点的输出值和输出层各节点的输出值;
计算输出层各节点误差:
ek=ok-yk (4)
其中,ek表示输出层第k个节点的误差,ok表示输出层第k个节点的实际值,yk表示输出层第k个节点的输出值;
基于误差反向传播更新所述全卷积神经网络模型的参数;
输入下一个训练样本,继续更新全卷积神经网络模型的参数,直至训练样本集中的所有训练样本训练结束,完成一次迭代;
设定全卷积神经网络模型的损失函数:
其中,n表示输出层的节点数,ok表示输出层第k个节点的实际值,yk表示输出层第k个节点的输出值;
判断训练是否满足结束条件,如果满足结束条件,则结束训练,输出经过训练的全卷积神经网络模型,如果不满足结束条件,将继续训练模型,其中,所述结束条件包括第一结束条件或/和第二结束条件中的一个或两个,第一结束条件为当前迭代次数大于设定的最大迭代次数,第二结束条件为连续多次迭代时损失函数值的变化小于设定目标值。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括语音增强程序,所述语音增强程序被处理器执行时,实现如权利要求1至6中任一项所述的语音增强方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811350813.8A CN109326299B (zh) | 2018-11-14 | 2018-11-14 | 基于全卷积神经网络的语音增强方法、装置及存储介质 |
PCT/CN2019/089180 WO2020098256A1 (zh) | 2018-11-14 | 2019-05-30 | 基于全卷积神经网络的语音增强方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811350813.8A CN109326299B (zh) | 2018-11-14 | 2018-11-14 | 基于全卷积神经网络的语音增强方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109326299A true CN109326299A (zh) | 2019-02-12 |
CN109326299B CN109326299B (zh) | 2023-04-25 |
Family
ID=65261439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811350813.8A Active CN109326299B (zh) | 2018-11-14 | 2018-11-14 | 基于全卷积神经网络的语音增强方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109326299B (zh) |
WO (1) | WO2020098256A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110265053A (zh) * | 2019-06-29 | 2019-09-20 | 联想(北京)有限公司 | 信号降噪控制方法、装置及电子设备 |
CN110348566A (zh) * | 2019-07-15 | 2019-10-18 | 上海点积实业有限公司 | 一种生成神经网络训练用数字信号的方法和系统 |
CN110534123A (zh) * | 2019-07-22 | 2019-12-03 | 中国科学院自动化研究所 | 语音增强方法、装置、存储介质、电子设备 |
CN110648681A (zh) * | 2019-09-26 | 2020-01-03 | 腾讯科技(深圳)有限公司 | 语音增强的方法、装置、电子设备及计算机可读存储介质 |
WO2020098256A1 (zh) * | 2018-11-14 | 2020-05-22 | 平安科技(深圳)有限公司 | 基于全卷积神经网络的语音增强方法、装置及存储介质 |
CN113345463A (zh) * | 2021-05-31 | 2021-09-03 | 平安科技(深圳)有限公司 | 基于卷积神经网络的语音增强方法、装置、设备及介质 |
CN116508099A (zh) * | 2020-10-29 | 2023-07-28 | 杜比实验室特许公司 | 基于深度学习的语音增强 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753977B (zh) * | 2020-06-30 | 2024-01-02 | 中国科学院半导体研究所 | 光学神经网络卷积层芯片、卷积计算方法和电子设备 |
CN112188428B (zh) * | 2020-09-28 | 2024-01-30 | 广西民族大学 | 一种传感云网络中Sink节点的能效最优化方法 |
CN112182709B (zh) * | 2020-09-28 | 2024-01-16 | 中国水利水电科学研究院 | 大型水库叠梁门分层取水设施的下泄水温快速预测方法 |
CN113314136A (zh) * | 2021-05-27 | 2021-08-27 | 西安电子科技大学 | 基于定向降噪与干声提取技术的语音优化方法 |
CN113821967A (zh) * | 2021-06-04 | 2021-12-21 | 北京理工大学 | 基于散射中心模型的大样本训练数据生成方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157953A (zh) * | 2015-04-16 | 2016-11-23 | 科大讯飞股份有限公司 | 连续语音识别方法及系统 |
CN106847302A (zh) * | 2017-02-17 | 2017-06-13 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
US20180033449A1 (en) * | 2016-08-01 | 2018-02-01 | Apple Inc. | System and method for performing speech enhancement using a neural network-based combined symbol |
CN107845389A (zh) * | 2017-12-21 | 2018-03-27 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
CN107871497A (zh) * | 2016-09-23 | 2018-04-03 | 北京眼神科技有限公司 | 语音识别方法和装置 |
CN108133702A (zh) * | 2017-12-20 | 2018-06-08 | 重庆邮电大学 | 一种基于mee优化准则的深度神经网络语音增强模型 |
CN108172238A (zh) * | 2018-01-06 | 2018-06-15 | 广州音书科技有限公司 | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 |
CN108334843A (zh) * | 2018-02-02 | 2018-07-27 | 成都国铁电气设备有限公司 | 一种基于改进AlexNet的燃弧识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9697826B2 (en) * | 2015-03-27 | 2017-07-04 | Google Inc. | Processing multi-channel audio waveforms |
CN109326299B (zh) * | 2018-11-14 | 2023-04-25 | 平安科技(深圳)有限公司 | 基于全卷积神经网络的语音增强方法、装置及存储介质 |
-
2018
- 2018-11-14 CN CN201811350813.8A patent/CN109326299B/zh active Active
-
2019
- 2019-05-30 WO PCT/CN2019/089180 patent/WO2020098256A1/zh active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157953A (zh) * | 2015-04-16 | 2016-11-23 | 科大讯飞股份有限公司 | 连续语音识别方法及系统 |
US20180033449A1 (en) * | 2016-08-01 | 2018-02-01 | Apple Inc. | System and method for performing speech enhancement using a neural network-based combined symbol |
CN107871497A (zh) * | 2016-09-23 | 2018-04-03 | 北京眼神科技有限公司 | 语音识别方法和装置 |
CN106847302A (zh) * | 2017-02-17 | 2017-06-13 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
CN108133702A (zh) * | 2017-12-20 | 2018-06-08 | 重庆邮电大学 | 一种基于mee优化准则的深度神经网络语音增强模型 |
CN107845389A (zh) * | 2017-12-21 | 2018-03-27 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
CN108172238A (zh) * | 2018-01-06 | 2018-06-15 | 广州音书科技有限公司 | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 |
CN108334843A (zh) * | 2018-02-02 | 2018-07-27 | 成都国铁电气设备有限公司 | 一种基于改进AlexNet的燃弧识别方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020098256A1 (zh) * | 2018-11-14 | 2020-05-22 | 平安科技(深圳)有限公司 | 基于全卷积神经网络的语音增强方法、装置及存储介质 |
CN110265053A (zh) * | 2019-06-29 | 2019-09-20 | 联想(北京)有限公司 | 信号降噪控制方法、装置及电子设备 |
CN110265053B (zh) * | 2019-06-29 | 2022-04-19 | 联想(北京)有限公司 | 信号降噪控制方法、装置及电子设备 |
CN110348566A (zh) * | 2019-07-15 | 2019-10-18 | 上海点积实业有限公司 | 一种生成神经网络训练用数字信号的方法和系统 |
CN110348566B (zh) * | 2019-07-15 | 2023-01-06 | 上海点积实业有限公司 | 一种生成神经网络训练用数字信号的方法和系统 |
CN110534123A (zh) * | 2019-07-22 | 2019-12-03 | 中国科学院自动化研究所 | 语音增强方法、装置、存储介质、电子设备 |
CN110534123B (zh) * | 2019-07-22 | 2022-04-01 | 中国科学院自动化研究所 | 语音增强方法、装置、存储介质、电子设备 |
CN110648681A (zh) * | 2019-09-26 | 2020-01-03 | 腾讯科技(深圳)有限公司 | 语音增强的方法、装置、电子设备及计算机可读存储介质 |
CN110648681B (zh) * | 2019-09-26 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 语音增强的方法、装置、电子设备及计算机可读存储介质 |
CN116508099A (zh) * | 2020-10-29 | 2023-07-28 | 杜比实验室特许公司 | 基于深度学习的语音增强 |
CN113345463A (zh) * | 2021-05-31 | 2021-09-03 | 平安科技(深圳)有限公司 | 基于卷积神经网络的语音增强方法、装置、设备及介质 |
CN113345463B (zh) * | 2021-05-31 | 2024-03-01 | 平安科技(深圳)有限公司 | 基于卷积神经网络的语音增强方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109326299B (zh) | 2023-04-25 |
WO2020098256A1 (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109326299A (zh) | 基于全卷积神经网络的语音增强方法、装置及存储介质 | |
CN109410974B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN110600017A (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
US20200372345A1 (en) | System and method for training neural networks | |
CN111326168B (zh) | 语音分离方法、装置、电子设备和存储介质 | |
CN111785288B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN110956957A (zh) | 语音增强模型的训练方法及系统 | |
CN111357051B (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
CN110047517A (zh) | 语音情感识别方法、问答方法及计算机设备 | |
CN113241064B (zh) | 语音识别、模型训练方法、装置、电子设备和存储介质 | |
CN113011581A (zh) | 神经网络模型压缩方法、装置、电子设备及可读存储介质 | |
JP6987378B2 (ja) | ニューラルネットワークの学習方法及びコンピュータプログラム | |
CN110930976A (zh) | 一种语音生成方法及装置 | |
CN110942777B (zh) | 一种声纹神经网络模型的训练方法、装置及存储介质 | |
CN110059823A (zh) | 深度神经网络模型压缩方法及装置 | |
CN115884032B (zh) | 一种后馈式耳机的智慧通话降噪方法及系统 | |
CN117174105A (zh) | 一种基于改进型深度卷积网络的语音降噪与去混响方法 | |
CN114822578A (zh) | 语音降噪方法、装置、设备及存储介质 | |
CN112703513A (zh) | 信息处理方法及信息处理系统 | |
Delcroix et al. | Context Adaptive Neural Network for Rapid Adaptation of Deep CNN Based Acoustic Models. | |
CN117765966A (zh) | 一种水声信号降噪识别联合训练方法、系统、设备及介质 | |
CN108053834A (zh) | 音频数据处理方法、装置、终端及系统 | |
CN116110418A (zh) | 音频降噪方法和装置、存储介质及电子装置 | |
Chowdhury et al. | Speech enhancement using k-sparse autoencoder techniques | |
Kleijn et al. | Salient speech representations based on cloned networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |