CN114067785B - 语音深度神经网络训练方法、装置、存储介质及电子装置 - Google Patents
语音深度神经网络训练方法、装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN114067785B CN114067785B CN202210003754.7A CN202210003754A CN114067785B CN 114067785 B CN114067785 B CN 114067785B CN 202210003754 A CN202210003754 A CN 202210003754A CN 114067785 B CN114067785 B CN 114067785B
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- neural network
- feature
- deep neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 title claims abstract description 27
- 238000003062 neural network model Methods 0.000 claims abstract description 75
- 239000003623 enhancer Substances 0.000 claims abstract description 63
- 230000006870 function Effects 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 35
- 238000010606 normalization Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000011478 gradient descent method Methods 0.000 claims description 9
- 238000006073 displacement reaction Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 19
- 238000000605 extraction Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 238000000926 separation method Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音深度神经网络训练方法、装置、存储介质及电子装置。其中,该语音深度神经网络训练方法包括:获取混合语音样本以及目标样本语音,其中,混合语音样本包括目标语音和噪音语音;将混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,预设语音神经网络模型包括提取器、增强器和重构器;在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型,基于本方案中训练的包括提取器、增强器和重构器的语音深度神经网络,解决了现有技术中,无法有效的从混合语音中分离出目标语音的技术问题。
Description
技术领域
本发明涉及语音信号处理相关领域,具体而言,涉及一种语音深度神经网络训练方法、装置、存储介质及电子装置。
背景技术
鸡尾酒会问题通常指一个复杂场景下的语音分离问题,随着人类需求的提高和电子智能设备的发展,此问题近来得到越来越广泛的关注。语音识别和语义识别等语音交互应用作为最基本的交互方式被广泛应用于各种智能设备如智能耳机、智能电视和智能音箱等。而在鸡尾酒会这类复杂场景下,某个目标的语音识别将会变得异常困难,这是因为在此种场合下噪声、混响和多个说话人重叠的声音都会对目标语音的识别造成很强的干扰,因此,针对目标说话人的语音分离和提取问题就格外重要。语音分离算法中研究和应用最广泛的是单通道语音分离。相比多通道语音分离任务来说,单通道算法的硬件要求和成本较低,运算量较小,但是随之带来的结果是计算时可利用的信息相对较少,实现难度也更高。
近几年计算机技术发展的愈加成熟,随之而来的直接好处就是深度学习技术得以依托实现。同样的,在语音分离领域,大量的深度学习算法涌现,在频域上有DeepClustering,DANet,uPIT,Deep CASA等算法,在时域上有Conv-TasNet, BLSTM-TasNet,FurcaNeXt等算法。这些算法都将语音分离算法推上了一个技术发展的更高阶段。然而,这些算法大部分是在理想的语音混合数据库上实验和发展起来的,当将其应用于实际场景中时,算法的准确度衰减较大,实用性较差。日常生活中的场景通常是由多种噪声、混响或者多个说话人的语音同时存在的,目前还没有一个较好的通用的算法来进行有效的目标说话人分离。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语音深度神经网络训练方法、装置、存储介质及电子装置,以至少解决现有技术中,无法有效的从混合语音中分离出目标语音的技术问题。
根据本发明实施例的一个方面,提供了一种语音深度神经网络训练方法,包括:获取混合语音样本以及目标样本语音,其中,所述混合语音样本包括所述目标语音和噪音语音;将所述混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,所述预设语音神经网络模型包括提取器、增强器和重构器,所述提取器用于对所述混合语音进行编码,得到编码特征,所述增强器的移位算子部分根据所述编码特征得到第一特征,所述增强器的卷积算子部分根据所述编码特征得到第二特征,所述重构器根据所述第一特征和所述第二特征得到所述预测目标语音;在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件,确定所述预设语音深度神经网络模型为目标语音深度神经网络模型。
可选的,所述重构器根据所述第一特征和所述第二特征得到所述预测目标语音,包括:将所述第一特征和所述第二特征相加,得到增强特征;所述重构器根据所述增强特征得到所述预测目标语音。
可选的,所述提取器用于对所述混合语音进行编码,得到编码特征,包括:将所述混合语音输入所述提取器,经过所述提取器中的两层卷积网络和批归一化处理层对所述混合语音进行编码,得到所述编码特征。
可选的,所述增强器的移位算子部分根据所述编码特征得到第一特征,包括:将所述编码特征输入所述增强器的移位算子部分,得到当前特征点;将当前特征点与其前N个和后N个特征点作为一个计算单元,将当前特征点沿顺时针方向和逆时针方向进行循环移位;将移位后的计算单元Cn1和Cn2与原计算单元Cn通过元素点积获得变换后的第一子特征和第二子特征,其中,所述计算单元Cn1对应顺时针方向、计算单元Cn2对应逆时针方向;在局部区域进行加权求和和批归一化处理后得到所述第一特征。
可选的,所述增强器的卷积算子部分根据所述编码特征得到第二特征,包括:将所述编码特征输入所述增强器的卷积算子部分,经过一层卷积和批归一化处理后得到所述第二特征。
可选的,所述在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件,确定所述预设语音深度神经网络模型为目标语音深度神经网络模型,包括:计算所述目标样本语音和所述预测目标语音的等比例不变信噪比公式,根据等比例不变信噪比公式确定所述损失函数;根据所述损失函数的损失值,通过梯度下降法调整所述预设语音神经网络模型的各参数的权重和偏置;在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件,确定所述预设语音深度神经网络模型为目标语音深度神经网络模型。
根据本申请实施例的第一个方面,提供了一种语音深度神经网络训练装置,包括:获取单元,用于获取混合语音样本以及目标样本语音,其中,所述混合语音样本包括所述目标语音和噪音语音;预测单元,用于将所述混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,所述预设语音神经网络模型包括提取器、增强器和重构器,所述提取器用于对所述混合语音进行编码,得到编码特征,所述增强器的移位算子部分根据所述编码特征得到第一特征,所述增强器的卷积算子部分根据所述编码特征得到第二特征,所述重构器根据所述第一特征和所述第二特征得到所述预测目标语音;确定单元,用于在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件,确定所述预设语音深度神经网络模型为目标语音深度神经网络模型。
可选的,所述预测单元,包括:增强模块,用于将所述第一特征和所述第二特征相加,得到增强特征;预测模块,用于所述重构器根据所述增强特征得到所述预测目标语音。
可选的,所述预测单元,包括:编码模块,用于将所述混合语音输入所述提取器,经过所述提取器中的两层卷积网络和批归一化处理层对所述混合语音进行编码,得到编码特征。
可选的,所述预测单元,包括:第一处理模块,用于将所述编码特征输入所述增强器的移位算子部分,得到当前特征点;位移模块,用于将当前特征点与其前N个和后N个特征点作为一个计算单元,将当前特征点沿顺时针方向和逆时针方向进行循环移位;获取模块,用于将移位后的计算单元Cn1和Cn2与原计算单元Cn通过元素点积获得变换后的第一子特征和第二子特征,其中,所述计算单元Cn1对应顺时针方向、计算单元Cn2对应逆时针方向;第二处理模块,用于在局部区域进行加权求和和批归一化处理后得到所述第一特征。
可选的,所述预测单元,包括:第三模块,用于将所述编码特征输入所述增强器的卷积算子部分,经过一层卷积和批归一化处理后得到所述第二特征。
可选的,所述确定单元,包括:计算模块,用于计算所述目标样本语音和所述预测目标语音的等比例不变信噪比公式,根据等比例不变信噪比公式确定所述损失函数;调整模块,用于根据所述损失函数的损失值,通过梯度下降法调整所述预设语音神经网络模型的各参数的权重和偏置;确定模块,用于在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件,确定所述预设语音深度神经网络模型为目标语音深度神经网络模型。
根据本申请实施例的第一个方面,提供了一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述语音深度神经网络训练方法。
根据本申请实施例的第一个方面,提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述语音深度神经网络训练方法。
在本发明实施例中,获取混合语音样本以及目标样本语音,其中,混合语音样本包括目标语音和噪音语音;将混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,预设语音神经网络模型包括提取器、增强器和重构器,提取器用于对混合语音进行编码,得到编码特征,增强器的移位算子部分根据编码特征得到第一特征,增强器的卷积算子部分根据编码特征得到第二特征,重构器根据第一特征和第二特征得到预测目标语音;在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型,基于本方案中训练的包括提取器、增强器和重构器的语音深度神经网络,解决了现有技术中,无法有效的从混合语音中分离出目标语音的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的语音深度神经网络训练方法的移动终端的硬件结构框图;
图2是根据本发明实施例的一种可选的语音深度神经网络训练方法的流程图;
图3是根据本发明实施例的一种可选的单通道的移位式语音提取网络整体结构图;
图4是根据本发明实施例的一种可选的提取器结构图;
图5是根据本发明实施例的一种可选的增强器结构图;
图6是根据本发明实施例的一种可选的移位算子结构图;
图7是根据本发明实施例的一种可选的重构器结构图;
图8是根据本发明实施例的一种可选的语音深度神经网络训练装置图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一序列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了更好的理解本申请,现对部分名称说明如下:
本申请实施例所提供的语音深度神经网络训练方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种语音深度神经网络训练方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的语音深度神经网络训练方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中还提供了一种语音深度神经网络训练方法,图2是根据本发明实施例的语音深度神经网络训练方法的流程图,如图2所示,该语音深度神经网络训练方法流程包括如下步骤:
步骤S202,获取混合语音样本以及目标样本语音,其中,混合语音样本包括目标语音和噪音语音。
步骤S204,将混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,预设语音神经网络模型包括提取器、增强器和重构器,提取器用于对混合语音进行编码,得到编码特征,增强器的移位算子部分根据编码特征得到第一特征,增强器的卷积算子部分根据编码特征得到第二特征,重构器根据第一特征和第二特征得到预测目标语音。
步骤S206,在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型。
在本实施例中,针对复杂场景如含有噪声、混响及其他说话人干扰等因素的目标说话人语音提取问题,提出一种单通道的移位式语音提取算法。该算法相比现有的单通道语音提取算法能在提高复杂场景目标语音提取准确度的同时,保持低计算量,增加产品的落地性。
通过本申请提供的实施例,获取混合语音样本以及目标样本语音,其中,混合语音样本包括目标语音和噪音语音;将混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,预设语音神经网络模型包括提取器、增强器和重构器,提取器用于对混合语音进行编码,得到编码特征,增强器的移位算子部分根据编码特征得到第一特征,增强器的卷积算子部分根据编码特征得到第二特征,重构器根据第一特征和第二特征得到预测目标语音;在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型,基于本方案中训练的包括提取器、增强器和重构器的语音深度神经网络,解决了现有技术中,无法有效的从混合语音中分离出目标语音的技术问题。
可选的,重构器根据第一特征和第二特征得到预测目标语音,可以包括:将第一特征和第二特征相加,得到增强特征;重构器根据增强特征得到预测目标语音。
可选的,提取器用于对混合语音进行编码,得到编码特征,可以包括:将混合语音输入提取器,经过提取器中的两层卷积网络和批归一化处理层对混合语音进行编码,得到编码特征。
可选的,增强器的移位算子部分根据编码特征得到第一特征,可以包括:将编码特征输入增强器的移位算子部分,得到当前特征点;将当前特征点与其前N个和后N个特征点作为一个计算单元,将当前特征点沿顺时针方向和逆时针方向进行循环移位;将移位后的计算单元Cn1和Cn2与原计算单元Cn通过元素点积获得变换后的第一子特征和第二子特征,其中,计算单元Cn1对应顺时针方向、计算单元Cn2对应逆时针方向;在局部区域进行加权求和和批归一化处理后得到第一特征。
可选的,增强器的卷积算子部分根据编码特征得到第二特征,可以包括:将编码特征输入增强器的卷积算子部分,经过一层卷积和批归一化处理后得到第二特征。
可选的,在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型,可以包括:计算目标样本语音和预测目标语音的等比例不变信噪比公式,根据等比例不变信噪比公式确定损失函数;根据损失函数的损失值,通过梯度下降法调整预设语音神经网络模型的各参数的权重和偏置;在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型。
作为一种可选的实施例,本申请还提供了一种单通道的移位式语音提取算法。具有包括如下内容。
如图3所示,单通道的移位式语音提取网络整体结构图。在本实施例中,单通道移位式语音提取算法包括提取器、增强器和重构器组成。如图4所示,提取器结构图,提取器主要由卷积网络构成。如图5所示,增强器结构图,增强器主要由融合网络构成。其中,如图6所示,融合网络结构图,融合网络主要由移位算子和卷积算子构成。如图7所示,重构器结构图,重构器主要由卷积网络构成。主要包括以下内容:
第一部分:对训练的语音样本进行预处理;
第二部分:使用损失函数对移位式提取深度神经网络进行训练,以获得移位式提取深度神经网络模型;
第三部分:将待测试语音样本进行预处理,并通过训练后的深度神经网络模型进行语音分离,得到分离结果。
以下将对每个部分做详细说明。
其中,第一部分具体包括:
步骤1,对语音样本和噪声样本的时域信号在8kHz下重采样,将不同的说话人语音在信噪比在0到5dB之间进行随即混合,并将其与随机抽取的噪声样本在-6到3dB的信噪比下做混合,然后根据房间响应函数对不同条件的空间和麦克风进行混响计算,得到最后的混合信号y;
步骤2,将整个数据库分为训练集、验证集和测试集。混合语音作为提取器的输入,混合语音中的目标说话人语音作为训练目标。
第二部分具体包括:
步骤1,对移位式提取深度神经网络参数进行随机初始化;
步骤2,根据步骤1初始化后的参数,对移位式提取深度神经网络进行有监督的训练,即使用损失函数通过梯度下降法来反向传播更新权重和偏置,以获得深度神经网络模型。
在本实施例中,上述步骤2中包括前向传播阶段和反向传播阶段。
其中,前向传播阶段包括:对网络神经元节点之间的权重和偏置进行初始化;深度神经网络进行前向传播。
神经网络在前向传播过程中,可使用激活函数来增加网络之间的非线性关系,最后能够生成输入与输出结果间的非线性映射。
反向传播阶段包括:<1>计算移位式提取深度神经网络的损失函数;
<2>通过梯度下降法更新移位式提取深度神经网络的参数。
因此,网络将使用梯度下降法对其中的参数进行交替更新。
a、构建移位式语音提取网络,包括提取器、增强器和重构器。提取器主要由两层卷积网络、一层批归一化处理层构成。增强器主要由两层融合网络构成,其中,融合网络主要由一个移位算子和一个卷积算子构成。重构器主要由两层卷积网络构成。
b、在一定时间内,固定移位式提取网络内的参数,计算输出层损失函数的梯度;
c、计算网络层数l=L-1,L-2,…,2时每一层所对应的梯度;
d、更新整个移位式提取网络的权重和偏置。
如图4所示,提取器部分,将混合音频y输入到网络输入端,然后经两层卷积网络和批归一化处理层对信号进行编码,得到G={g0,…,gN-1}。N为此编码器第二层网络对应的输出长度。
如图5所示,增强器的移位算子部分,将提取器的输出G输入到此移位算子作为特征输入,然后将当前特征点gn与其前j个和后j个特征点作为一个计算单元,这里取j=1,则当前计算单元为Cn={ gn-1,gn,gn+1},然后将当前特征点沿顺时针方向和逆时针方向进行循环移位,当j=1时,顺时针和逆时针得到的移位后的特征单元相同,为Cn1:{ gn, gn+1,gn-1}和Cn2:{ gn+1,gn-1,gn }。然后将移位后的计算单元Cn1和Cn2与原计算单元Cn通过元素点积获得变换后的特征Cn1’和Cn2’。再对该计算特征单元在局部区域进行加权求和和批归一化处理后得到gn’。
增强器的卷积算子部分,同样的,将提取器的输出G输入到此卷积算子作为特征输入,然后经过一层卷积和批归一化处理后得到深度特征gn’’,然后将gn’和gn’’相加得到此增强器的输出hn。
第三部分中的语音重建操作为:将待测试语音样本输入到训练后的移位式提取网络模型中,经计算可直接得到目标语音的分离结果。
通过本申请提供的实施例,通过移位式语音提取算法可解决在复杂场景如含有噪声、混响和其他说话人干扰下提取的目标语音质量差的问题,相比目前存在的同类算法可在提高目标语音输出准确性的同时,保持较低的计算量,极大的增强算法到芯片的可移植性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种语音深度神经网络训练装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图8是根据本发明实施例的语音深度神经网络训练装置的结构框图,如图8所示,该语音深度神经网络训练装置包括:
获取单元81,用于获取混合语音样本以及目标样本语音,其中,混合语音样本包括目标语音和噪音语音。
预测单元83,用于将混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,预设语音神经网络模型包括提取器、增强器和重构器,提取器用于对混合语音进行编码,得到编码特征,增强器的移位算子部分根据编码特征得到第一特征,增强器的卷积算子部分根据编码特征得到第二特征,重构器根据第一特征和第二特征得到预测目标语音。
确定单元85,用于在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型。
通过本申请提供的实施例,获取单元81获取混合语音样本以及目标样本语音,其中,混合语音样本包括目标语音和噪音语音;预测单元83将混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,预设语音神经网络模型包括提取器、增强器和重构器,提取器用于对混合语音进行编码,得到编码特征,增强器的移位算子部分根据编码特征得到第一特征,增强器的卷积算子部分根据编码特征得到第二特征,重构器根据第一特征和第二特征得到预测目标语音;确定单元85在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型,基于本方案中训练的包括提取器、增强器和重构器的语音深度神经网络,解决了现有技术中,无法有效的从混合语音中分离出目标语音的技术问题。
可选的,上述预测单元83,可以包括:增强模块,用于将第一特征和第二特征相加,得到增强特征;预测模块,用于重构器根据增强特征得到预测目标语音。
可选的,上述预测单元83,可以包括:编码模块,用于将混合语音输入提取器,经过提取器中的两层卷积网络和批归一化处理层对混合语音进行编码,得到编码特征。
可选的,上述预测单元83,可以包括:第一处理模块,用于将编码特征输入增强器的移位算子部分,得到当前特征点;位移模块,用于将当前特征点与其前N个和后N个特征点作为一个计算单元,将当前特征点沿顺时针方向和逆时针方向进行循环移位;获取模块,用于将移位后的计算单元Cn1和Cn2与原计算单元Cn通过元素点积获得变换后的第一子特征和第二子特征,其中,计算单元Cn1对应顺时针方向、计算单元Cn2对应逆时针方向;第二处理模块,用于在局部区域进行加权求和和批归一化处理后得到第一特征。
可选的,上述预测单元83,可以包括:第三模块,用于将编码特征输入增强器的卷积算子部分,经过一层卷积和批归一化处理后得到第二特征。
可选的,上述确定单元85,可以包括:计算模块,用于计算目标样本语音和预测目标语音的等比例不变信噪比公式,根据等比例不变信噪比公式确定损失函数;调整模块,用于根据损失函数的损失值,通过梯度下降法调整预设语音神经网络模型的各参数的权重和偏置;确定模块,用于在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取混合语音样本以及目标样本语音,其中,混合语音样本包括目标语音和噪音语音;
S2,将混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,预设语音神经网络模型包括提取器、增强器和重构器,提取器用于对混合语音进行编码,得到编码特征,增强器的移位算子部分根据编码特征得到第一特征,增强器的卷积算子部分根据编码特征得到第二特征,重构器根据第一特征和第二特征得到预测目标语音;
S3,在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取混合语音样本以及目标样本语音,其中,混合语音样本包括目标语音和噪音语音;
S2,将混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,预设语音神经网络模型包括提取器、增强器和重构器,提取器用于对混合语音进行编码,得到编码特征,增强器的移位算子部分根据编码特征得到第一特征,增强器的卷积算子部分根据编码特征得到第二特征,重构器根据第一特征和第二特征得到预测目标语音;
S3,在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种语音深度神经网络训练方法,其特征在于,包括:
获取混合语音样本以及目标样本语音,其中,所述混合语音样本包括目标语音和噪音语音;
将所述混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,所述预设语音深度神经网络模型包括提取器、增强器和重构器,所述提取器用于对所述混合语音进行编码,得到编码特征,所述增强器的移位算子部分根据所述编码特征得到第一特征,所述增强器的卷积算子部分根据所述编码特征得到第二特征,所述重构器根据所述第一特征和所述第二特征得到所述预测目标语音;
在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件,确定所述预设语音深度神经网络模型为目标语音深度神经网络模型。
2.根据权利要求1所述的方法,其特征在于,所述重构器根据所述第一特征和所述第二特征得到所述预测目标语音,包括:
将所述第一特征和所述第二特征相加,得到增强特征;
所述重构器根据所述增强特征得到所述预测目标语音。
3.根据权利要求1所述的方法,其特征在于,所述提取器用于对所述混合语音进行编码,得到编码特征,包括:
将所述混合语音输入所述提取器,经过所述提取器中的两层卷积网络和批归一化处理层对所述混合语音进行编码,得到所述编码特征。
4.根据权利要求1所述的方法,其特征在于,所述增强器的移位算子部分根据所述编码特征得到第一特征,包括:
将所述编码特征输入所述增强器的移位算子部分,得到当前特征点;
将当前特征点与其前N个和后N个特征点作为一个计算单元,将当前特征点沿顺时针方向和逆时针方向进行循环移位;
将移位后的计算单元Cn1和Cn2与原计算单元Cn通过元素点积获得变换后的第一子特征和第二子特征,其中,所述计算单元Cn1对应顺时针方向、计算单元Cn2对应逆时针方向;
在局部区域进行加权求和和批归一化处理后得到所述第一特征。
5.根据权利要求1所述的方法,其特征在于,所述增强器的卷积算子部分根据所述编码特征得到第二特征,包括:
将所述编码特征输入所述增强器的卷积算子部分,经过一层卷积和批归一化处理后得到所述第二特征。
6.根据权利要求1所述的方法,其特征在于,所述在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件,确定所述预设语音深度神经网络模型为目标语音深度神经网络模型,包括:
计算所述目标样本语音和所述预测目标语音的等比例不变信噪比公式,根据等比例不变信噪比公式确定所述损失函数;
根据所述损失函数的损失值,通过梯度下降法调整所述预设语音深度神经网络模型的各参数的权重和偏置;
在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件,确定所述预设语音深度神经网络模型为目标语音深度神经网络模型。
7.一种语音深度神经网络训练装置,其特征在于,包括:
获取单元,用于获取混合语音样本以及目标样本语音,其中,所述混合语音样本包括目标语音和噪音语音;
预测单元,用于将所述混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,所述预设语音深度神经网络模型包括提取器、增强器和重构器,所述提取器用于对所述混合语音进行编码,得到编码特征,所述增强器的移位算子部分根据所述编码特征得到第一特征,所述增强器的卷积算子部分根据所述编码特征得到第二特征,所述重构器根据所述第一特征和所述第二特征得到所述预测目标语音;
确定单元,用于在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件,确定所述预设语音深度神经网络模型为目标语音深度神经网络模型。
8.根据权利要求7所述的装置,其特征在于,所述预测单元,包括:
增强模块,用于将所述第一特征和所述第二特征相加,得到增强特征;
预测模块,用于所述重构器根据所述增强特征得到所述预测目标语音。
9.根据权利要求7所述的装置,其特征在于,所述预测单元,包括:
编码模块,用于将所述混合语音输入所述提取器,经过所述提取器中的两层卷积网络和批归一化处理层对所述混合语音进行编码,得到编码特征。
10.根据权利要求7所述的装置,其特征在于,所述预测单元,包括:
第一处理模块,用于将所述编码特征输入所述增强器的移位算子部分,得到当前特征点;
位移模块,用于将当前特征点与其前N个和后N个特征点作为一个计算单元,将当前特征点沿顺时针方向和逆时针方向进行循环移位;
获取模块,用于将移位后的计算单元Cn1和Cn2与原计算单元Cn通过元素点积获得变换后的第一子特征和第二子特征,其中,所述计算单元Cn1对应顺时针方向、计算单元Cn2对应逆时针方向;
第二处理模块,用于在局部区域进行加权求和和批归一化处理后得到所述第一特征。
11.根据权利要求7所述的装置,其特征在于,所述预测单元,包括:
第三模块,用于将所述编码特征输入所述增强器的卷积算子部分,经过一层卷积和批归一化处理后得到所述第二特征。
12.根据权利要求7所述的装置,其特征在于,所述确定单元,包括:
计算模块,用于计算所述目标样本语音和所述预测目标语音的等比例不变信噪比公式,根据等比例不变信噪比公式确定所述损失函数;
调整模块,用于根据所述损失函数的损失值,通过梯度下降法调整所述预设语音深度神经网络模型的各参数的权重和偏置;
确定模块,用于在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件,确定所述预设语音深度神经网络模型为目标语音深度神经网络模型。
13.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。
14.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210003754.7A CN114067785B (zh) | 2022-01-05 | 2022-01-05 | 语音深度神经网络训练方法、装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210003754.7A CN114067785B (zh) | 2022-01-05 | 2022-01-05 | 语音深度神经网络训练方法、装置、存储介质及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114067785A CN114067785A (zh) | 2022-02-18 |
CN114067785B true CN114067785B (zh) | 2023-01-13 |
Family
ID=80230762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210003754.7A Active CN114067785B (zh) | 2022-01-05 | 2022-01-05 | 语音深度神经网络训练方法、装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114067785B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9666183B2 (en) * | 2015-03-27 | 2017-05-30 | Qualcomm Incorporated | Deep neural net based filter prediction for audio event classification and extraction |
US10839822B2 (en) * | 2017-11-06 | 2020-11-17 | Microsoft Technology Licensing, Llc | Multi-channel speech separation |
CN108922517A (zh) * | 2018-07-03 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 训练盲源分离模型的方法、装置及存储介质 |
CN110459240B (zh) * | 2019-08-12 | 2021-01-12 | 新疆大学 | 基于卷积神经网络和深度聚类的多说话人语音分离方法 |
CN113345464A (zh) * | 2021-05-31 | 2021-09-03 | 平安科技(深圳)有限公司 | 语音提取方法、系统、设备及存储介质 |
CN113744719A (zh) * | 2021-09-03 | 2021-12-03 | 清华大学 | 一种语音提取方法、装置及设备 |
-
2022
- 2022-01-05 CN CN202210003754.7A patent/CN114067785B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114067785A (zh) | 2022-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110444214B (zh) | 语音信号处理模型训练方法、装置、电子设备及存储介质 | |
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN109326299B (zh) | 基于全卷积神经网络的语音增强方法、装置及存储介质 | |
CN108038546B (zh) | 用于压缩神经网络的方法和装置 | |
CN111785288B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN112989107B (zh) | 音频分类和分离方法、装置、电子设备以及存储介质 | |
CN111357051B (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN111508519A (zh) | 一种音频信号人声增强的方法及装置 | |
CN113177538A (zh) | 一种视频循环识别方法、装置、计算机设备及存储介质 | |
CN111599346A (zh) | 一种说话人聚类方法、装置、设备及存储介质 | |
CN113241064A (zh) | 语音识别、模型训练方法、装置、电子设备和存储介质 | |
CN114067785B (zh) | 语音深度神经网络训练方法、装置、存储介质及电子装置 | |
CN111026904A (zh) | 一种基于内容画像的播单评分方法 | |
CN111881972A (zh) | 一种黑产用户识别方法及装置、服务器、存储介质 | |
CN114974281A (zh) | 语音降噪模型的训练方法、装置、存储介质及电子装置 | |
CN111144347A (zh) | 一种数据处理方法、装置、平台及存储介质 | |
CN114333912B (zh) | 语音激活检测方法、装置、电子设备和存储介质 | |
CN116110418A (zh) | 音频降噪方法和装置、存储介质及电子装置 | |
CN114155883B (zh) | 基于进阶式的语音深度神经网络训练方法、装置 | |
CN112002339B (zh) | 语音降噪方法和装置、计算机可读的存储介质及电子装置 | |
CN113705589A (zh) | 数据处理方法、装置及设备 | |
Li et al. | Dynamic attention based generative adversarial network with phase post-processing for speech enhancement | |
CN112885367A (zh) | 基频获取方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |