CN109346087A - 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置 - Google Patents
对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置 Download PDFInfo
- Publication number
- CN109346087A CN109346087A CN201811079831.7A CN201811079831A CN109346087A CN 109346087 A CN109346087 A CN 109346087A CN 201811079831 A CN201811079831 A CN 201811079831A CN 109346087 A CN109346087 A CN 109346087A
- Authority
- CN
- China
- Prior art keywords
- network
- noise
- trained
- coding
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 79
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 36
- 230000004069 differentiation Effects 0.000 claims description 34
- 238000012795 verification Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 10
- 238000009432 framing Methods 0.000 claims description 10
- 238000012790 confirmation Methods 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 27
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 28
- 230000004044 response Effects 0.000 description 20
- 238000004458 analytical method Methods 0.000 description 16
- 239000004568 cement Substances 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 230000009466 transformation Effects 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 4
- 210000000697 sensory organ Anatomy 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及人工智能,提供了一种基于深度神经网络生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置,其中,基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法包括:根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练;采用通用背景模型对训练后的生成对抗网络进行评估。通过本发明的技术方案,能够明显地提升对多个用户的语音数据进行分离的准确性,增强了语音处理效果。
Description
技术领域
本发明涉及语音处理技术领域,具体而言,涉及一种基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和一种基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置。
背景技术
生成对抗网络基于极小极大博弈而设计的对抗网络框架,包括生成器和判别器,其中,生成器(如采用MLP(Multi-Layer Perceptron,即多层感知器)网络表示生成函数)可以生成伪造的样本,与真实样本同时输入判别器(如采用MLP网络),判别器根据伪造样本(g(z),0)和真实样本(x,1)最大化判别真假的概率。生成器最大化判别器无法判别的概率,即最小化伪造样本的概率分布与真实数据的概率分布之间的“距离”。
相关技术中,生成对抗网络越来越多地应用于语音处理领域,但是,如何优化生成对抗网络的训练方法以进一步提高语音处理效果,成为亟待解决的技术问题。
发明内容
为了解决上述至少一个技术问题,本发明提出了一种基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置。
为了实现上述目的,本发明的技术方案提供了一种基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法,应用于电子设备,包括:根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练;采用通用背景模型对训练后的所述生成对抗网络进行评估。
本方案中,通过根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络(即为上述生成器对应的网络)和判别网络分别轮流进行训练,利用判别网络来对编码网络进行误差判别,注意判别网络的参数不变化,只是传递误差,传到编码网络更新编码网络的参数,使得生成数据更逼近真实数据,不仅能够包含纯净语音和加噪语音之间的共同特征并且能够保留纯净语音不同部分的特征,取得较好的语音增强效果,生成对抗网络包括串行的编码网络和判别网络,编码网络包括三层隐含层,并分别包含1024、1024、128个节点,激活函数分别是softplus、softplus、tanh,使得生成对抗网络的输出能够逼近于任何真实值。
其中,通用背景模型使用微软的声纹识别工具箱,记录使用步骤该工具箱包含了常规的基于GMM-UBM方法以及state-of-the-art的基于i-vector方法,另外对短时谱幅值最小和对基于深层神经网络进行评估,以确定生成对抗网络的训练效果。
另外,上述MFCC(Mel-Frequency Cepstral Coefficients)特征的获取主要包括两个关键步骤:转化到梅尔频率,然后进行倒谱分析。
首先,梅尔刻度是一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度。所以当在梅尔刻度上面上是均匀分度的话,对于的赫兹之间的距离将会越来越大。梅尔刻度的滤波器组在低频部分的分辨率高,跟人耳的听觉特性是相符的,这也是梅尔刻度的物理意义所在。
这一步的含义是:首先对时域信号进行傅里叶变换转换到频域,然后再利用梅尔频率刻度的滤波器组对应频域信号进行切分,最后每个频率段对应一个数值。
其次,倒谱的含义是:对时域信号做傅里叶变换,然后取log,然后再进行反傅里叶变换。可以分为复倒谱、实倒谱和功率倒谱,我们用的是功率倒谱。倒谱分析可用于将信号分解,两个信号的卷积转化为两个信号的相加。对应上图的频域信号,可以拆分成两部分的乘积:频谱的包络和频谱的细节。频谱的峰值即为共振峰,它决定了信号频域的包络,是辨别声音的重要信息,所以进行倒谱分析目的就是获得频谱的包络信息。包络部分对应的是频谱的低频信息,而细节部分对应的是频谱的高频信息。倒谱分析已经将两部分对应的时域信号的卷积关系转化为了线性加关系,所以只需要将倒谱通过一个低通滤波器即可获得包络部分对应的时域信号。
优选地,根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练,具体包括:在对所述编码网络进行训练时,将所述编码网络的输出确定为噪声鲁棒瓶颈特征,并且将不包含噪声的语音数据标签作为唯一训练标签;在对所述判别网络进行训练时,将所述指定类型噪声确定为所述判别网络的训练标签。
本方案中,通过在对所述编码网络进行训练时,将所述编码网络的输出确定为噪声鲁棒瓶颈特征,并且将不包含噪声的语音数据标签作为唯一训练标签,并且在对所述判别网络进行训练时,将所述指定类型噪声确定为所述判别网络的训练标签,即最终根据编码网络生成的瓶颈特征作为说话人确认系统的输入来对语音增强效果进行评估,进而提升了生成对抗网络的语音处理效果。
优选地,根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练,具体还包括:将所述不含噪声的语音数据和所述MFCC特征组合为包含指定个数短语的批处理数据;采用随机梯度下降算法和所述批处理数据对所述编码网络和所述判别网络分别轮流进行训练。
本方案中,通过将所述不含噪声的语音数据和所述MFCC特征组合为包含指定个数短语的批处理数据,并且采用随机梯度下降算法和所述批处理数据对所述编码网络和所述判别网络分别轮流进行训练,不仅能够包含纯净语音和加噪语音之间的共同特征并且能够保留纯净语音不同部分的特征,取得较好的语音增强效果。
优选地,不含噪声的语音数据和所述MFCC特征组合为32条短语的一个批处理数据,并且设定训练迭代次数为30次~40次。
优选地,还包括:采用反向传播算法计算所述生成对抗网络的梯度;采用随机梯度下降算法和所述梯度来更新所述生成对抗网络的参数。
本方案中,反向传播算法主要由两个环节(激励传播和权重更新)反复循环迭代,直到网络的对输入的响应达到预定的目标范围为止。
每次迭代中的传播环节包含两步:
(1)前向传播阶段:训练输入送入网络以获得激励响应。
(2)反向传播阶段:将激励响应同训练输入对应的目标输出求差,从而获得隐层和输出层的响应误差。
对于每个突触上的权重,按照以下步骤进行更新:
(1)将输入激励和响应误差相乘,从而获得权重的梯度;
(2)将这个梯度乘上一个比例并取反后加到权重上。
(3)这个比例将会影响到训练过程的速度和效果,因此称为“训练因子”。梯度的方向指明了误差扩大的方向,因此在更新权重的时候需要对其取反,从而减小权重引起的误差。
另外,随机梯度下降算法每次从训练集中随机选择一个样本来进行学习,批量梯度下降算法每次都会使用全部训练样本,因此这些计算是冗余的,因为每次都使用完全相同的样本集。而随机梯度下降算法每次只随机选择一个样本来更新模型参数,因此每次的学习是非常快速的,并且可以进行在线更新。
优选地,在根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练前,还包括:获取包含语音数据和噪声数据的音频包;对所述音频包进行分帧加窗处理,并进行静音检测处理,以获得所述不含噪声的语音数据;利用隐马尔科夫模型开源工具包提取所述音频包中的MFCC特征。
本方案中,分别有纯净语音和加噪语音的音频数据,对语音进行分帧加窗(20ms帧长,10ms帧移)及静音检测VAD,利用提取音频的MFCC特征,编码网络的输入是11帧(窗口滑动选取前后五帧)57维MFCC特征,所以编码网络的输入层有57*11=627个节点数据。
另外,生成对抗网络的损失函数的计算方法可以参考以下步骤:
损失函数为交叉熵函数:
其中,Xi代表输入特征,m为每个mini-batch的帧数,LEi和LDi代表第i帧的训练标签。
最后,针对存在的判别网络收敛比编码网络快的问题,解决方法入下:
1、10dB、20dB的加噪语音去训练生成对抗网络,信噪比高,判别网络不容易区分加噪语音和纯净语音,增加判别网络训练难度。
2、在每次mini-batch训练过程中更新编码网络3次,以50%的概率来选择更新判别网络。
本发明的技术方案还提出了一种基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置,包括存储器和处理器:所述存储器中包括基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认程序,所述基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认程序被所述处理器执行时实现如下步骤:
根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练;
采用通用背景模型对训练后的所述生成对抗网络进行评估。
确认装置还包括:训练单元,用于根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练;评估单元,用于采用通用背景模型对训练后的所述生成对抗网络进行评估。
本方案中,通过根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络(即为上述生成器对应的网络)和判别网络分别轮流进行训练,利用判别网络来对编码网络进行误差判别,注意判别网络的参数不变化,只是传递误差,传到编码网络更新编码网络的参数,使得生成数据更逼近真实数据,不仅能够包含纯净语音和加噪语音之间的共同特征并且能够保留纯净语音不同部分的特征,取得较好的语音增强效果,生成对抗网络包括串行的编码网络和判别网络,编码网络包括三层隐含层,并分别包含1024、1024、128个节点,激活函数分别是softplus、softplus、tanh,使得生成对抗网络的输出能够逼近于任何真实值。
其中,通用背景模型使用微软的声纹识别工具箱,记录使用步骤该工具箱包含了常规的基于GMM-UBM方法以及state-of-the-art的基于i-vector方法,另外对短时谱幅值最小和对基于深层神经网络进行评估,以确定生成对抗网络的训练效果。
另外,上述MFCC(Mel-Frequency Cepstral Coefficients)特征的获取主要包括两个关键步骤:转化到梅尔频率,然后进行倒谱分析。
首先,梅尔刻度是一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度。所以当在梅尔刻度上面上是均匀分度的话,对于的赫兹之间的距离将会越来越大。梅尔刻度的滤波器组在低频部分的分辨率高,跟人耳的听觉特性是相符的,这也是梅尔刻度的物理意义所在。
这一步的含义是:首先对时域信号进行傅里叶变换转换到频域,然后再利用梅尔频率刻度的滤波器组对应频域信号进行切分,最后每个频率段对应一个数值。
其次,倒谱的含义是:对时域信号做傅里叶变换,然后取log,然后再进行反傅里叶变换。可以分为复倒谱、实倒谱和功率倒谱,我们用的是功率倒谱。倒谱分析可用于将信号分解,两个信号的卷积转化为两个信号的相加。对应上图的频域信号,可以拆分成两部分的乘积:频谱的包络和频谱的细节。频谱的峰值即为共振峰,它决定了信号频域的包络,是辨别声音的重要信息,所以进行倒谱分析目的就是获得频谱的包络信息。包络部分对应的是频谱的低频信息,而细节部分对应的是频谱的高频信息。倒谱分析已经将两部分对应的时域信号的卷积关系转化为了线性加关系,所以只需要将倒谱通过一个低通滤波器即可获得包络部分对应的时域信号。
优选地,所述训练单元具体包括:确定子单元,用于在对所述编码网络进行训练时,将所述编码网络的输出确定为噪声鲁棒瓶颈特征,并且将不包含噪声的语音数据标签作为唯一训练标签;所述确定子单元还用于:在对所述判别网络进行训练时,将所述指定类型噪声确定为所述判别网络的训练标签。
本方案中,通过在对所述编码网络进行训练时,将所述编码网络的输出确定为噪声鲁棒瓶颈特征,并且将不包含噪声的语音数据标签作为唯一训练标签,并且在对所述判别网络进行训练时,将所述指定类型噪声确定为所述判别网络的训练标签,即最终根据编码网络生成的瓶颈特征作为说话人确认系统的输入来对语音增强效果进行评估,进而提升了生成对抗网络的语音处理效果。
优选地,所述训练单元具体包括:组合子单元,用于将所述不含噪声的语音数据和所述MFCC特征组合为包含指定个数短语的批处理数据;所述训练单元还用于:采用随机梯度下降算法和所述批处理数据对所述编码网络和所述判别网络分别轮流进行训练。
本方案中,通过将所述不含噪声的语音数据和所述MFCC特征组合为包含指定个数短语的批处理数据,并且采用随机梯度下降算法和所述批处理数据对所述编码网络和所述判别网络分别轮流进行训练,不仅能够包含纯净语音和加噪语音之间的共同特征并且能够保留纯净语音不同部分的特征,取得较好的语音增强效果。
优选地,不含噪声的语音数据和所述MFCC特征组合为32条短语的一个批处理数据,并且设定训练迭代次数为30次~40次。
优选地,还包括:计算单元,用于采用反向传播算法计算所述生成对抗网络的梯度;更新单元,用于采用随机梯度下降算法和所述梯度来更新所述生成对抗网络的参数。
本方案中,反向传播算法主要由两个环节(激励传播和权重更新)反复循环迭代,直到网络的对输入的响应达到预定的目标范围为止。
每次迭代中的传播环节包含两步:
(1)前向传播阶段:训练输入送入网络以获得激励响应。
(2)反向传播阶段:将激励响应同训练输入对应的目标输出求差,从而获得隐层和输出层的响应误差。
对于每个突触上的权重,按照以下步骤进行更新:
(1)将输入激励和响应误差相乘,从而获得权重的梯度;
(2)将这个梯度乘上一个比例并取反后加到权重上。
(3)这个比例将会影响到训练过程的速度和效果,因此称为“训练因子”。梯度的方向指明了误差扩大的方向,因此在更新权重的时候需要对其取反,从而减小权重引起的误差。
另外,随机梯度下降算法每次从训练集中随机选择一个样本来进行学习,批量梯度下降算法每次都会使用全部训练样本,因此这些计算是冗余的,因为每次都使用完全相同的样本集。而随机梯度下降算法每次只随机选择一个样本来更新模型参数,因此每次的学习是非常快速的,并且可以进行在线更新。
优选地,还包括:获取单元,用于获取包含语音数据和噪声数据的音频包;去噪单元,用于对所述音频包进行分帧加窗处理,并进行静音检测处理,以获得所述不含噪声的语音数据;提取单元,用于利用隐马尔科夫模型开源工具包提取所述音频包中的MFCC特征。
本方案中,分别有纯净语音和加噪语音的音频数据,对语音进行分帧加窗(20ms帧长,10ms帧移)及静音检测VAD,利用提取音频的MFCC特征,编码网络的输入是11帧(窗口滑动选取前后五帧)57维MFCC特征,所以编码网络的输入层有57*11=627个节点数据。
另外,生成对抗网络的损失函数的计算方法可以参考以下步骤:
损失函数为交叉熵函数:
其中,Xi代表输入特征,m为每个mini-batch的帧数,LEi和LDi代表第i帧的训练标签。
最后,针对存在的判别网络收敛比编码网络快的问题,解决方法入下:
1、10dB、20dB的加噪语音去训练生成对抗网络,信噪比高,判别网络不容易区分加噪语音和纯净语音,增加判别网络训练难度。
2、在每次mini-batch训练过程中更新编码网络3次,以50%的概率来选择更新判别网络。
本发明的技术方案还提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述本发明的技术方案提出的任一项的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法的步骤,因此具有上述本发明的第一方面的技术方案提出的任一项的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法的全部有益效果,在此不再赘述。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为一实施例中基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法的示意流程图;
图2为一实施例中基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1为一实施例中基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法的示意流程图。
如图1所示,该实施例中的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法包括以下步骤:步骤S102,根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练;步骤S104,采用通用背景模型对训练后的所述生成对抗网络进行评估。
本方案中,通过根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络(即为上述生成器对应的网络)和判别网络分别轮流进行训练,利用判别网络来对编码网络进行误差判别,注意判别网络的参数不变化,只是传递误差,传到编码网络更新编码网络的参数,使得生成数据更逼近真实数据,不仅能够包含纯净语音和加噪语音之间的共同特征并且能够保留纯净语音不同部分的特征,取得较好的语音增强效果,生成对抗网络包括串行的编码网络和判别网络,编码网络包括三层隐含层,并分别包含1024、1024、128个节点,激活函数分别是softplus、softplus、tanh,使得生成对抗网络的输出能够逼近于任何真实值。
其中,通用背景模型使用微软的声纹识别工具箱,记录使用步骤该工具箱包含了常规的基于GMM-UBM方法以及state-of-the-art的基于i-vector方法,另外对短时谱幅值最小和对基于深层神经网络进行评估,以确定生成对抗网络的训练效果。
另外,上述MFCC(Mel-Frequency Cepstral Coefficients)特征的获取主要包括两个关键步骤:转化到梅尔频率,然后进行倒谱分析。
首先,梅尔刻度是一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度。所以当在梅尔刻度上面上是均匀分度的话,对于的赫兹之间的距离将会越来越大。梅尔刻度的滤波器组在低频部分的分辨率高,跟人耳的听觉特性是相符的,这也是梅尔刻度的物理意义所在。
这一步的含义是:首先对时域信号进行傅里叶变换转换到频域,然后再利用梅尔频率刻度的滤波器组对应频域信号进行切分,最后每个频率段对应一个数值。
其次,倒谱的含义是:对时域信号做傅里叶变换,然后取log,然后再进行反傅里叶变换。可以分为复倒谱、实倒谱和功率倒谱,我们用的是功率倒谱。倒谱分析可用于将信号分解,两个信号的卷积转化为两个信号的相加。对应上图的频域信号,可以拆分成两部分的乘积:频谱的包络和频谱的细节。频谱的峰值即为共振峰,它决定了信号频域的包络,是辨别声音的重要信息,所以进行倒谱分析目的就是获得频谱的包络信息。包络部分对应的是频谱的低频信息,而细节部分对应的是频谱的高频信息。倒谱分析已经将两部分对应的时域信号的卷积关系转化为了线性加关系,所以只需要将倒谱通过一个低通滤波器即可获得包络部分对应的时域信号。
优选地,根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练,具体包括:在对所述编码网络进行训练时,将所述编码网络的输出确定为噪声鲁棒瓶颈特征,并且将不包含噪声的语音数据标签作为唯一训练标签;在对所述判别网络进行训练时,将所述指定类型噪声确定为所述判别网络的训练标签。
本方案中,通过在对所述编码网络进行训练时,将所述编码网络的输出确定为噪声鲁棒瓶颈特征,并且将不包含噪声的语音数据标签作为唯一训练标签,并且在对所述判别网络进行训练时,将所述指定类型噪声确定为所述判别网络的训练标签,即最终根据编码网络生成的瓶颈特征作为说话人确认系统的输入来对语音增强效果进行评估,进而提升了生成对抗网络的语音处理效果。
优选地,根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练,具体还包括:将所述不含噪声的语音数据和所述MFCC特征组合为包含指定个数短语的批处理数据;采用随机梯度下降算法和所述批处理数据对所述编码网络和所述判别网络分别轮流进行训练。
本方案中,通过将所述不含噪声的语音数据和所述MFCC特征组合为包含指定个数短语的批处理数据,并且采用随机梯度下降算法和所述批处理数据对所述编码网络和所述判别网络分别轮流进行训练,不仅能够包含纯净语音和加噪语音之间的共同特征并且能够保留纯净语音不同部分的特征,取得较好的语音增强效果。
优选地,不含噪声的语音数据和所述MFCC特征组合为32条短语的一个批处理数据,并且设定训练迭代次数为30次~40次。
优选地,还包括:采用反向传播算法计算所述生成对抗网络的梯度;采用随机梯度下降算法和所述梯度来更新所述生成对抗网络的参数。
本方案中,反向传播算法主要由两个环节(激励传播和权重更新)反复循环迭代,直到网络的对输入的响应达到预定的目标范围为止。
每次迭代中的传播环节包含两步:
(1)前向传播阶段:训练输入送入网络以获得激励响应。
(2)反向传播阶段:将激励响应同训练输入对应的目标输出求差,从而获得隐层和输出层的响应误差。
对于每个突触上的权重,按照以下步骤进行更新:
(1)将输入激励和响应误差相乘,从而获得权重的梯度;
(2)将这个梯度乘上一个比例并取反后加到权重上。
(3)这个比例将会影响到训练过程的速度和效果,因此称为“训练因子”。梯度的方向指明了误差扩大的方向,因此在更新权重的时候需要对其取反,从而减小权重引起的误差。
另外,随机梯度下降算法每次从训练集中随机选择一个样本来进行学习,批量梯度下降算法每次都会使用全部训练样本,因此这些计算是冗余的,因为每次都使用完全相同的样本集。而随机梯度下降算法每次只随机选择一个样本来更新模型参数,因此每次的学习是非常快速的,并且可以进行在线更新。
优选地,在根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练前,还包括:获取包含语音数据和噪声数据的音频包;对所述音频包进行分帧加窗处理,并进行静音检测处理,以获得所述不含噪声的语音数据;利用隐马尔科夫模型开源工具包提取所述音频包中的MFCC特征。
本方案中,分别有纯净语音和加噪语音的音频数据,对语音进行分帧加窗(20ms帧长,10ms帧移)及静音检测VAD,利用提取音频的MFCC特征,编码网络的输入是11帧(窗口滑动选取前后五帧)57维MFCC特征,所以编码网络的输入层有57*11=627个节点数据。
另外,生成对抗网络的损失函数的计算方法可以参考以下步骤:
损失函数为交叉熵函数:
其中,Xi代表输入特征,m为每个mini-batch的帧数,LEi和LDi代表第i帧的训练标签。
最后,针对存在的判别网络收敛比编码网络快的问题,解决方法入下:
1、10dB、20dB的加噪语音去训练生成对抗网络,信噪比高,判别网络不容易区分加噪语音和纯净语音,增加判别网络训练难度。
2、在每次mini-batch训练过程中更新编码网络3次,以50%的概率来选择更新判别网络。
图2为一实施例中基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置的示意框图。
如图2所示,该实施例中基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置200包括:训练单元202,用于根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练;评估单元204,用于采用通用背景模型对训练后的所述生成对抗网络进行评估。
本方案中,通过根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络(即为上述生成器对应的网络)和判别网络分别轮流进行训练,利用判别网络来对编码网络进行误差判别,注意判别网络的参数不变化,只是传递误差,传到编码网络更新编码网络的参数,使得生成数据更逼近真实数据,不仅能够包含纯净语音和加噪语音之间的共同特征并且能够保留纯净语音不同部分的特征,取得较好的语音增强效果,生成对抗网络包括串行的编码网络和判别网络,编码网络包括三层隐含层,并分别包含1024、1024、128个节点,激活函数分别是softplus、softplus、tanh,使得生成对抗网络的输出能够逼近于任何真实值。
其中,通用背景模型使用微软的声纹识别工具箱,记录使用步骤该工具箱包含了常规的基于GMM-UBM方法以及state-of-the-art的基于i-vector方法,另外对短时谱幅值最小和对基于深层神经网络进行评估,以确定生成对抗网络的训练效果。
另外,上述MFCC(Mel-Frequency Cepstral Coefficients)特征的获取主要包括两个关键步骤:转化到梅尔频率,然后进行倒谱分析。
首先,梅尔刻度是一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度。所以当在梅尔刻度上面上是均匀分度的话,对于的赫兹之间的距离将会越来越大。梅尔刻度的滤波器组在低频部分的分辨率高,跟人耳的听觉特性是相符的,这也是梅尔刻度的物理意义所在。
这一步的含义是:首先对时域信号进行傅里叶变换转换到频域,然后再利用梅尔频率刻度的滤波器组对应频域信号进行切分,最后每个频率段对应一个数值。
其次,倒谱的含义是:对时域信号做傅里叶变换,然后取log,然后再进行反傅里叶变换。可以分为复倒谱、实倒谱和功率倒谱,我们用的是功率倒谱。倒谱分析可用于将信号分解,两个信号的卷积转化为两个信号的相加。对应上图的频域信号,可以拆分成两部分的乘积:频谱的包络和频谱的细节。频谱的峰值即为共振峰,它决定了信号频域的包络,是辨别声音的重要信息,所以进行倒谱分析目的就是获得频谱的包络信息。包络部分对应的是频谱的低频信息,而细节部分对应的是频谱的高频信息。倒谱分析已经将两部分对应的时域信号的卷积关系转化为了线性加关系,所以只需要将倒谱通过一个低通滤波器即可获得包络部分对应的时域信号。
优选地,所述训练单元202具体包括:确定子单元2022,用于在对所述编码网络进行训练时,将所述编码网络的输出确定为噪声鲁棒瓶颈特征,并且将不包含噪声的语音数据标签作为唯一训练标签;所述确定子单元2022还用于:在对所述判别网络进行训练时,将所述指定类型噪声确定为所述判别网络的训练标签。
本方案中,通过在对所述编码网络进行训练时,将所述编码网络的输出确定为噪声鲁棒瓶颈特征,并且将不包含噪声的语音数据标签作为唯一训练标签,并且在对所述判别网络进行训练时,将所述指定类型噪声确定为所述判别网络的训练标签,即最终根据编码网络生成的瓶颈特征作为说话人确认系统的输入来对语音增强效果进行评估,进而提升了生成对抗网络的语音处理效果。
优选地,所述训练单元202具体包括:组合子单元2024,用于将所述不含噪声的语音数据和所述MFCC特征组合为包含指定个数短语的批处理数据;所述训练单元202还用于:采用随机梯度下降算法和所述批处理数据对所述编码网络和所述判别网络分别轮流进行训练。
本方案中,通过将所述不含噪声的语音数据和所述MFCC特征组合为包含指定个数短语的批处理数据,并且采用随机梯度下降算法和所述批处理数据对所述编码网络和所述判别网络分别轮流进行训练,不仅能够包含纯净语音和加噪语音之间的共同特征并且能够保留纯净语音不同部分的特征,取得较好的语音增强效果。
优选地,不含噪声的语音数据和所述MFCC特征组合为32条短语的一个批处理数据,并且设定训练迭代次数为30次~40次。
优选地,还包括:计算单元206,用于采用反向传播算法计算所述生成对抗网络的梯度;更新单元208,用于采用随机梯度下降算法和所述梯度来更新所述生成对抗网络的参数。。
本方案中,反向传播算法主要由两个环节(激励传播和权重更新)反复循环迭代,直到网络的对输入的响应达到预定的目标范围为止。
每次迭代中的传播环节包含两步:
(1)前向传播阶段:训练输入送入网络以获得激励响应。
(2)反向传播阶段:将激励响应同训练输入对应的目标输出求差,从而获得隐层和输出层的响应误差。
对于每个突触上的权重,按照以下步骤进行更新:
(1)将输入激励和响应误差相乘,从而获得权重的梯度;
(2)将这个梯度乘上一个比例并取反后加到权重上。
(3)这个比例将会影响到训练过程的速度和效果,因此称为“训练因子”。梯度的方向指明了误差扩大的方向,因此在更新权重的时候需要对其取反,从而减小权重引起的误差。
另外,随机梯度下降算法每次从训练集中随机选择一个样本来进行学习,批量梯度下降算法每次都会使用全部训练样本,因此这些计算是冗余的,因为每次都使用完全相同的样本集。而随机梯度下降算法每次只随机选择一个样本来更新模型参数,因此每次的学习是非常快速的,并且可以进行在线更新。
优选地,还包括:获取单元210,用于获取包含语音数据和噪声数据的音频包;去噪单元212,用于对所述音频包进行分帧加窗处理,并进行静音检测处理,以获得所述不含噪声的语音数据;提取单元214,用于利用隐马尔科夫模型开源工具包提取所述音频包中的MFCC特征。
本方案中,分别有纯净语音和加噪语音的音频数据,对语音进行分帧加窗(20ms帧长,10ms帧移)及静音检测VAD,利用提取音频的MFCC特征,编码网络的输入是11帧(窗口滑动选取前后五帧)57维MFCC特征,所以编码网络的输入层有57*11=627个节点数据。
另外,生成对抗网络的损失函数的计算方法可以参考以下步骤:
损失函数为交叉熵函数:
其中,Xi代表输入特征,m为每个mini-batch的帧数,LEi和LDi代表第i帧的训练标签。
最后,针对存在的判别网络收敛比编码网络快的问题,解决方法入下:
1、10dB、20dB的加噪语音去训练生成对抗网络,信噪比高,判别网络不容易区分加噪语音和纯净语音,增加判别网络训练难度。
2、在每次mini-batch训练过程中更新编码网络3次,以50%的概率来选择更新判别网络。
以上结合附图详细说明了本发明的技术方案,本发明提出了一种基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和一种基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置,通过根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络(即为上述生成器对应的网络)和判别网络分别轮流进行训练,利用判别网络来对编码网络进行误差判别,注意判别网络的参数不变化,只是传递误差,传到编码网络更新编码网络的参数,使得生成数据更逼近真实数据,不仅能够包含纯净语音和加噪语音之间的共同特征并且能够保留纯净语音不同部分的特征,取得较好的语音增强效果。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明的构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法,应用于电子设备,其特征在于,包括:
根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练;
采用通用背景模型对训练后的所述生成对抗网络进行评估。
2.根据权利要求1所述的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法,其特征在于,根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练,具体包括:
在对所述编码网络进行训练时,将所述编码网络的输出确定为噪声鲁棒瓶颈特征,并且将不包含噪声的语音数据标签作为唯一训练标签;
在对所述判别网络进行训练时,将所述指定类型噪声确定为所述判别网络的训练标签。
3.根据权利要求1所述的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法,其特征在于,根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练,具体还包括:
将所述不含噪声的语音数据和所述MFCC特征组合为包含指定个数短语的批处理数据;
采用随机梯度下降算法和所述批处理数据对所述编码网络和所述判别网络分别轮流进行训练。
4.根据权利要求1至3中任一项所述的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法,其特征在于,还包括:
采用反向传播算法计算所述生成对抗网络的梯度;
采用随机梯度下降算法和所述梯度来更新所述生成对抗网络的参数。
5.根据权利要求1至3中任一项所述的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法,其特征在于,在根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练前,还包括:
获取包含语音数据和噪声数据的音频包;
对所述音频包进行分帧加窗处理,并进行静音检测处理,以获得所述不含噪声的语音数据;
利用隐马尔科夫模型开源工具包提取所述音频包中的MFCC特征。
6.一种基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置,
包括存储器和处理器:所述存储器中包括基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认程序,所述基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认程序被所述处理器执行时实现如下步骤:
根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练;
采用通用背景模型对训练后的所述生成对抗网络进行评估。
7.根据权利要求6所述的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置,其特征在于,根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练具体步骤包括:
在对所述编码网络进行训练时,将所述编码网络的输出确定为噪声鲁棒瓶颈特征,并且将不包含噪声的语音数据标签作为唯一训练标签;
在对所述判别网络进行训练时,将所述指定类型噪声确定为所述判别网络的训练标签。
8.根据权利要求6所述的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置,其特征在于,根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练还包括如下步骤:
将所述不含噪声的语音数据和所述MFCC特征组合为包含指定个数短语的批处理数据;
采用随机梯度下降算法和所述批处理数据对所述编码网络和所述判别网络分别轮流进行训练。
9.根据权利要求6至8中任一项所述的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置,其特征在于,在根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练前,还包括:
获取包含语音数据和噪声数据的音频包;
对所述音频包进行分帧加窗处理,并进行静音检测处理,以获得所述不含噪声的语音数据;
利用隐马尔科夫模型开源工具包提取所述音频包中的MFCC特征。
10.一种计算机可读存储介质,其上存储有基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认程序,当基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认程序被处理器执行时,实现如权利要求1至5中任一项所述的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811079831.7A CN109346087B (zh) | 2018-09-17 | 2018-09-17 | 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811079831.7A CN109346087B (zh) | 2018-09-17 | 2018-09-17 | 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109346087A true CN109346087A (zh) | 2019-02-15 |
CN109346087B CN109346087B (zh) | 2023-11-10 |
Family
ID=65305556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811079831.7A Active CN109346087B (zh) | 2018-09-17 | 2018-09-17 | 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109346087B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887489A (zh) * | 2019-02-23 | 2019-06-14 | 天津大学 | 基于生成对抗网络的深度特征的语音去混响方法 |
CN110223680A (zh) * | 2019-05-21 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 语音处理方法、识别方法及其装置、系统、电子设备 |
CN110289004A (zh) * | 2019-06-18 | 2019-09-27 | 暨南大学 | 一种基于深度学习的人工合成声纹检测系统及方法 |
CN110600047A (zh) * | 2019-09-17 | 2019-12-20 | 南京邮电大学 | 基于Perceptual STARGAN的多对多说话人转换方法 |
CN110675881A (zh) * | 2019-09-05 | 2020-01-10 | 北京捷通华声科技股份有限公司 | 一种语音校验方法和装置 |
CN111785281A (zh) * | 2020-06-17 | 2020-10-16 | 国家计算机网络与信息安全管理中心 | 一种基于信道补偿的声纹识别方法及系统 |
CN112133293A (zh) * | 2019-11-04 | 2020-12-25 | 重庆邮电大学 | 基于生成对抗网络的短语音样本补偿方法及存储介质 |
WO2022007438A1 (zh) * | 2020-11-27 | 2022-01-13 | 平安科技(深圳)有限公司 | 情感语音数据转换方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050228662A1 (en) * | 2004-04-13 | 2005-10-13 | Bernard Alexis P | Middle-end solution to robust speech recognition |
CN1758332A (zh) * | 2005-10-31 | 2006-04-12 | 浙江大学 | 基于倒谱特征线性情感补偿的说话人识别方法 |
CN107293289A (zh) * | 2017-06-13 | 2017-10-24 | 南京医科大学 | 一种基于深度卷积生成对抗网络的语音生成方法 |
CN107993664A (zh) * | 2018-01-26 | 2018-05-04 | 北京邮电大学 | 一种基于竞争神经网络的鲁棒说话人识别方法 |
CN108346433A (zh) * | 2017-12-28 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
-
2018
- 2018-09-17 CN CN201811079831.7A patent/CN109346087B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050228662A1 (en) * | 2004-04-13 | 2005-10-13 | Bernard Alexis P | Middle-end solution to robust speech recognition |
CN1758332A (zh) * | 2005-10-31 | 2006-04-12 | 浙江大学 | 基于倒谱特征线性情感补偿的说话人识别方法 |
CN107293289A (zh) * | 2017-06-13 | 2017-10-24 | 南京医科大学 | 一种基于深度卷积生成对抗网络的语音生成方法 |
CN108346433A (zh) * | 2017-12-28 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
CN107993664A (zh) * | 2018-01-26 | 2018-05-04 | 北京邮电大学 | 一种基于竞争神经网络的鲁棒说话人识别方法 |
Non-Patent Citations (1)
Title |
---|
HONG YU等: "Adversarial Network Bottleneck Features for Noise Robust Speaker Verification", 《AIXIV COMPUTER SCIENCE》, pages 1 - 7 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887489A (zh) * | 2019-02-23 | 2019-06-14 | 天津大学 | 基于生成对抗网络的深度特征的语音去混响方法 |
CN109887489B (zh) * | 2019-02-23 | 2021-10-26 | 天津大学 | 基于生成对抗网络的深度特征的语音去混响方法 |
CN110223680A (zh) * | 2019-05-21 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 语音处理方法、识别方法及其装置、系统、电子设备 |
CN110289004A (zh) * | 2019-06-18 | 2019-09-27 | 暨南大学 | 一种基于深度学习的人工合成声纹检测系统及方法 |
CN110289004B (zh) * | 2019-06-18 | 2021-09-07 | 暨南大学 | 一种基于深度学习的人工合成声纹检测系统及方法 |
CN110675881A (zh) * | 2019-09-05 | 2020-01-10 | 北京捷通华声科技股份有限公司 | 一种语音校验方法和装置 |
CN110600047A (zh) * | 2019-09-17 | 2019-12-20 | 南京邮电大学 | 基于Perceptual STARGAN的多对多说话人转换方法 |
CN112133293A (zh) * | 2019-11-04 | 2020-12-25 | 重庆邮电大学 | 基于生成对抗网络的短语音样本补偿方法及存储介质 |
CN111785281A (zh) * | 2020-06-17 | 2020-10-16 | 国家计算机网络与信息安全管理中心 | 一种基于信道补偿的声纹识别方法及系统 |
WO2022007438A1 (zh) * | 2020-11-27 | 2022-01-13 | 平安科技(深圳)有限公司 | 情感语音数据转换方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109346087B (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109346087A (zh) | 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置 | |
CN104732978B (zh) | 基于联合深度学习的文本相关的说话人识别方法 | |
CN107680582A (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
CN107610707A (zh) | 一种声纹识别方法及装置 | |
CN107492382A (zh) | 基于神经网络的声纹信息提取方法及装置 | |
Prasomphan | Improvement of speech emotion recognition with neural network classifier by using speech spectrogram | |
CN110675881B (zh) | 一种语音校验方法和装置 | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN108986798A (zh) | 语音数据的处理方法、装置及设备 | |
CN109308903A (zh) | 语音模仿方法、终端设备及计算机可读存储介质 | |
CN111986679A (zh) | 一种应对复杂声学环境的说话人确认方法、系统及存储介质 | |
Zöhrer et al. | Representation learning for single-channel source separation and bandwidth extension | |
Li et al. | Oriental language recognition (OLR) 2020: Summary and analysis | |
Kaur et al. | Genetic algorithm for combined speaker and speech recognition using deep neural networks | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
CN106297769A (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
Gadasin et al. | Using Formants for Human Speech Recognition by Artificial Intelligence | |
CN113782032A (zh) | 一种声纹识别方法及相关装置 | |
Brucal et al. | Female voice recognition using artificial neural networks and MATLAB voicebox toolbox | |
Yerigeri et al. | Meta-heuristic approach in neural network for stress detection in Marathi speech | |
Cai et al. | The best input feature when using convolutional neural network for cough recognition | |
Jing | [Retracted] Optimization Simulation of English Speech RecognitionAccuracy Based on Improved Ant Colony Algorithm | |
Sahoo et al. | Detection of speech-based physical load using transfer learning approach | |
Shanmugapriya et al. | Deep neural network based speaker verification system using features from glottal activity regions | |
Paikrao et al. | Data Driven Neural Speech Enhancement for Smart Healthcare in Consumer Electronics Applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |