CN110956957B - 语音增强模型的训练方法及系统 - Google Patents
语音增强模型的训练方法及系统 Download PDFInfo
- Publication number
- CN110956957B CN110956957B CN201911337710.2A CN201911337710A CN110956957B CN 110956957 B CN110956957 B CN 110956957B CN 201911337710 A CN201911337710 A CN 201911337710A CN 110956957 B CN110956957 B CN 110956957B
- Authority
- CN
- China
- Prior art keywords
- voice
- audio
- speech
- feature
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 title claims abstract description 39
- 238000001228 spectrum Methods 0.000 claims abstract description 92
- 230000003595 spectral effect Effects 0.000 claims abstract description 36
- 238000011084 recovery Methods 0.000 claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G10L21/0202—
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明实施例提供一种语音增强模型的训练方法。该方法包括:接收纯净语音和与纯净语音对应的带噪语音;分别提取纯净语音的第一音频谱特征和带噪语音的第二音频谱特征;对带噪语音的第二音频谱特征进行压缩以生成第一深度语音特征;对第一深度语音特征进行去噪,得到去噪后的第二深度语音特征;对第二深度语音特征进行音频谱恢复,得到带噪语音的第三音频谱特征;确定纯净语音的第一音频谱特征和带噪语音的第三音频谱特征的特征均方误差,基于均方误差训练语音增强模型,直至特征均方误差符合预设阈值,确定语音增强模型。本发明实施例还提供一种语音增强模型的训练系统。本发明实施例使得语音增强模型具备解决噪声和远场的能力,提高识别性能。
Description
技术领域
本发明涉及智能语音领域,尤其涉及一种语音增强模型的训练方法及系统。
背景技术
为了提高语音识别模型的识别效果,通常会在识别之前进行语音增强(麦克风阵列、谱减法、维纳滤波)前端,用来增加复杂场景下的声纹识别系统的鲁棒性。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
基于麦克风阵列的语音增强技术通常用在多通道的语音增强;谱减法通常用来处理噪声与纯净语音不相关,并且噪声类型属于加性平稳噪声,增强后的语音包含较强的音乐噪声;使用维纳滤波进行语音增强,增强过后的语音类似白噪声,此外维纳滤波输入的过程和语音类似也是广义平稳的,所以维纳滤波也有很大的缺陷。通过这些方法训练的语音增强模型不具备同时进行降噪和降混响能力;对后端声纹识别的性能提升较小甚至没有作用。
发明内容
为了至少解决现有技术中的语音增强模型不具备同时进行降噪和降混响能力,对后端声纹识别的性能提升较小甚至没有作用的问题。
第一方面,本发明实施例提供一种语音增强模型的训练方法,包括:
接收纯净语音以及与所述纯净语音对应的带噪语音,其中,所述带噪语音包括:噪声语音和远场语音;
分别提取所述纯净语音的第一音频谱特征和所述带噪语音的第二音频谱特征;
对所述带噪语音的第二音频谱特征进行压缩以生成第一深度语音特征;
对所述第一深度语音特征进行去噪,得到去噪后的第二深度语音特征;
对所述第二深度语音特征进行音频谱恢复,得到所述带噪语音的第三音频谱特征;
确定所述纯净语音的第一音频谱特征和所述带噪语音的第三音频谱特征的特征均方误差,基于所述均方误差训练所述语音增强模型,直至所述特征均方误差符合预设阈值,确定语音增强模型,其中,所述语音增强模型输入为带噪语音,将处理后的带噪语音作为输出。
第二方面,本发明实施例提供一种声纹识别方法,包括:
接收带噪语音信号,提取所述带噪语音信号中的音频谱特征;
将所述音频谱特征输入至所述语音增强模型,得到去噪后的纯净音频的音频谱特征;
将所述纯净音频的音频谱特征输入至声纹识别网络,确定出纯净音频的特征向量,基于所述纯净音频的特征向量确定出识别结果。
第三方面,本发明实施例提供一种语音增强模型的训练系统,包括:
语音接收程序模块,用于接收纯净语音以及与所述纯净语音对应的带噪语音,其中,所述带噪语音包括:噪声语音和远场语音;
音频谱特征提取程序模块,用于分别提取所述纯净语音的第一音频谱特征和所述带噪语音的第二音频谱特征;
深度语音特征确定程序模块,用于对所述带噪语音的第二音频谱特征进行压缩以生成第一深度语音特征;
去噪程序模块,用于对所述第一深度语音特征进行去噪,得到去噪后的第二深度语音特征;
音频谱恢复程序模块,用于对所述第二深度语音特征进行音频谱恢复,得到所述带噪语音的第三音频谱特征;
模型训练程序模块,用于确定所述纯净语音的第一音频谱特征和所述带噪语音的第三音频谱特征的特征均方误差,基于所述均方误差训练所述语音增强模型,直至所述特征均方误差符合预设阈值,确定语音增强模型,其中,所述语音增强模型输入为带噪语音,将处理后的带噪语音作为输出。
第四方面,本发明实施例提供一种声纹识别系统,包括:
音频谱特征提取程序模块,用于接收带噪语音信号,提取所述带噪语音信号中的音频谱特征;
去噪程序模块,用于将所述音频谱特征输入至所述语音增强模型,得到去噪后的纯净音频的音频谱特征;
识别程序模块,用于将所述纯净音频的音频谱特征输入至声纹识别网络,确定出纯净音频的特征向量,基于所述纯净音频的特征向量确定出识别结果。
第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音增强模型的训练方法的步骤。
第六方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的语音增强模型的训练方法的步骤。
本发明实施例的有益效果在于:在语音增强前端使用卷积和反卷积网络分别进行编解码,在卷积和反卷积之间采用LSTM对序列进行时序处理,将噪声语音和远场语音的谱特征经过神经网络后和目标纯净语音的谱特征做MSE,从而使得网络具备解决噪声和远场的能力。
在声纹识别后端,采用多层卷积和归一化操作,将卷积操作后的结果经过最大池化和全连接后得到固定大小的Embedding嵌入,采用AM损失函数将相同说话人的Embedding之间的距离变小,反之变大,从而使得不同说话人的Embedding在空间上具有区分性,提高识别性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种语音增强模型的训练方法的流程图;
图2是本发明一实施例提供的一种语音增强模型的训练方法的语音增强模块网络结构图;
图3是本发明一实施例提供的一种声纹识别方法的流程图;
图4是本发明一实施例提供的一种声纹识别方法的声纹识别模块网络结构图;
图5是本发明一实施例提供的一种语音增强模型的训练系统的结构示意图;
图6是本发明一实施例提供的一种声纹识别系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种语音增强模型的训练方法的流程图,包括如下步骤:
S11:接收纯净语音以及与所述纯净语音对应的带噪语音,其中,所述带噪语音包括:噪声语音和远场语音;
S12:分别提取所述纯净语音的第一音频谱特征和所述带噪语音的第二音频谱特征;
S13:对所述带噪语音的第二音频谱特征进行压缩以生成第一深度语音特征;
S14:对所述第一深度语音特征进行去噪,得到去噪后的第二深度语音特征;
S15:对所述第二深度语音特征进行音频谱恢复,得到所述带噪语音的第三音频谱特征;
S16:确定所述纯净语音的第一音频谱特征和所述带噪语音的第三音频谱特征的特征均方误差,基于所述均方误差训练所述语音增强模型,直至所述特征均方误差符合预设阈值,确定语音增强模型,其中,所述语音增强模型输入为带噪语音,将处理后的带噪语音作为输出。
在本实施方式中,现有方法为了提高声纹识别的鲁棒性,通常会单独对噪声语音进行处理或者单独对混响语音处理,一个模型用来解决噪声和混响的影响,一般的模型很难具备这种功能,并且很难学习到这种能力。本方法为了解决这种情况,在语音增强前端使用了多个网络分别进行处理。
对于步骤S11,为了进行语音增强模型的训练,需要准备好训练数据。训练数据包括纯净语音,以及与所述纯净语音对应的带噪语音。例如,对纯净语音加入噪声(车辆噪声、家电噪声等)生成的噪声语音,以及对纯净语音进行处理,加入远场效果生成的远场语音。将噪声语音以及远场语音混合,确定为带噪语音。收集好这些纯净语音以及带噪语音,为语音增强模型训练做好充足的准备。
对于步骤S12,分别提取所述纯净语音的第一音频谱特征和所述带噪语音的第二音频谱特征,其中,所述音频谱特征为音频的谱特征,包括Fbank(Filter bank,滤波器组)特征、MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)特征、PLP(Perceptual linear predictive,感知线性预测)特征、功率谱特征。
其中,采用kaldi工具包提取语音的Fbank特征并存储在本地,在训练语音增强模块时,同时存储一条的原始语音路径和带噪语音路径。在网络训练的过程中就可以直接进行均方误差的计算。
对于步骤S13,对步骤S12中确定的第二音频谱特征进行压缩,在本实施方式中,包括:通过卷积神经网络对所述第二音频谱特征进行压缩,生成第一深度语音特征;
所述卷积神经网络为四层卷积神经网络,所述卷积神经网络的卷积层通道数分别为8,16,32,64;
如图2所示,将第二音频谱特征经过四层卷积神经网络,卷积层的通道数分别为(8,16,32,64),卷积核的大小为(3,3),步长为(1,2)。生成第一深度语音特征。
对于步骤S14,对在步骤S13中确定的第一深度语音特征进行去噪,在本实施方式中,包括:通过长短时记忆网络对所述第一深度语音特征进行逐帧去噪,得到去噪后的第二深度语音特征;
将卷积后的第一深度语音特征经过2层LSTM,此时注意经过LSTM的隐层数要和输入的尺寸设置相同,这样在后面步骤中反卷积才能顺利恢复到原始特征尺寸大小。
对于步骤S15,对步骤S14确定的第二深度语音特征进行音频谱恢复,在本实施方式中,包括:基于反卷积神经网络对所述第二深度语音特征进行音频谱恢复,用于避免神经网络训练的梯度消失;
反卷积的通道数分别为(32,16,8,1),第一个反卷积层的卷积核大小为(3,3),其余均设置为(3,4),步长均为(1,2)。得到带噪语音的第三音频普特征。
对于步骤S16:确定第一音频谱特征和所述带噪语音的第三音频谱特征的特征均方误差,也就是根据Fbank特征计算均方误差(MSE)。基于确定的均方误差来训练所述语音增强模型。直至所述特征均方误差符合预设阈值的时候,停止训练。
在本实施方式中,通过上述特定的步骤(卷积神经网络,反卷积神经网络)训练的语音增强模型为卷积-长短时记忆网络-反卷积结构的语音增强模型。
通过该实施方式可以看出,在语音增强前端使用卷积和反卷积网络分别进行编解码,在卷积和反卷积之间采用LSTM对序列进行时序处理,将噪声语音和远场语音的谱特征经过神经网络后和目标纯净语音的谱特征做MSE,从而使得网络具备解决噪声和远场的能力。
如图3所示为本发明一实施例提供的一种声纹识别方法的流程图,包括如下步骤:
S21:接收带噪语音信号,提取所述带噪语音信号中的音频谱特征;
S22:将所述音频谱特征输入至语音增强模型,得到去噪后的纯净音频的音频谱特征;
S23:将所述纯净音频的音频谱特征输入至声纹识别网络,确定出纯净音频的特征向量,基于所述纯净音频的特征向量确定出识别结果。
在本实施方式中,在声纹识别前端增加语音增强模块,对带噪语音进行过滤。
对于步骤S21,可以将本方法搭载到智能设备中进行使用,接收用户输入的带噪语音信号,提取所述带噪音频信号中的音频谱特征。
在本实施方式中,通过语音活性检测获取所述带噪语音信号中的人声信号,提取所述带噪语音信号中的人声信号的音频谱特征。例如,通过智能设备上的麦克风获取到用户的音频,通过VAD(voice activate detection,语音活性检测)来获取人声信号的音频谱特征。
对于步骤S22,将确定的音频普特征输入到语音增强模型进行音频增强,得到去噪后的纯净音频谱特征。
对于步骤S23,在得到纯净的音频谱特征后,如图4所示,将增强模块预测的纯净语音的Fbank特征经过多层卷积层,其中通道数分别为(16,16,32,32,64,64,128,128),卷积核大小均为(3,3),步长分别为(1,1)、(1,1)、(2,2)、(1,1)、(2,2)、(1,1)、(2,2)、(1,1)。将卷积后的结果经过最大池化和1层全连接网络映射到固定维度得到一条语音的表征向量Embedding。
在本实施方式中,通过AM损失函数确定出纯净音频的特征向量,用于区分特征向量中的不同说话人。其中,AM损失函数为AM Softmax loss(Additive Margin Softmax)最先提出并应用在人脸识别上。是在A-Softmax上引入了一个参数因子m,将余弦距离cosθ变为cos(mθ),通过m来调节特征间的距离,从而使得同一个说话人的类内和类间间距更加具有区分性。从而确定出识别结果。
通过该实施方式可以看出,在声纹识别后端,采用多层卷积和归一化操作,将卷积操作后的结果经过最大池化和全连接后得到固定大小的Embedding嵌入,采用AM损失函数将相同说话人的Embedding之间的距离变小,反之变大,从而使得不同说话人的Embedding在空间上具有区分性,提高识别性能。
如图5所示为本发明一实施例提供的一种语音增强模型的训练系统的结构示意图,该系统可执行上述任意实施例所述的语音增强模型的训练方法,并配置在终端中。
本实施例提供的一种语音增强模型的训练系统包括:语音接收程序模块11,音频谱特征提取程序模块12,深度语音特征确定程序模块13,去噪程序模块14,音频谱恢复程序模块15和模型训练程序模块16。
其中,语音接收程序模块11用于接收纯净语音以及与所述纯净语音对应的带噪语音,其中,所述带噪语音包括:噪声语音和远场语音;音频谱特征提取程序模块12用于分别提取所述纯净语音的第一音频谱特征和所述带噪语音的第二音频谱特征;深度语音特征确定程序模块13用于对所述带噪语音的第二音频谱特征进行压缩以生成第一深度语音特征;去噪程序模块14用于对所述第一深度语音特征进行去噪,得到去噪后的第二深度语音特征;音频谱恢复程序模块15用于对所述第二深度语音特征进行音频谱恢复,得到所述带噪语音的第三音频谱特征;模型训练程序模块16用于确定所述纯净语音的第一音频谱特征和所述带噪语音的第三音频谱特征的特征均方误差,基于所述均方误差训练所述语音增强模型,直至所述特征均方误差符合预设阈值,确定语音增强模型,其中,所述语音增强模型输入为带噪语音,将处理后的带噪语音作为输出。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音增强模型的训练方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
接收纯净语音以及与所述纯净语音对应的带噪语音,其中,所述带噪语音包括:噪声语音和远场语音;
分别提取所述纯净语音的第一音频谱特征和所述带噪语音的第二音频谱特征;
对所述带噪语音的第二音频谱特征进行压缩以生成第一深度语音特征;
对所述第一深度语音特征进行去噪,得到去噪后的第二深度语音特征;
对所述第二深度语音特征进行音频谱恢复,得到所述带噪语音的第三音频谱特征;
确定所述纯净语音的第一音频谱特征和所述带噪语音的第三音频谱特征的特征均方误差,基于所述均方误差训练所述语音增强模型,直至所述特征均方误差符合预设阈值,确定语音增强模型,其中,所述语音增强模型输入为带噪语音,将处理后的带噪语音作为输出。
如图6所示为本发明一实施例提供的一种声纹识别系统的结构示意图,该系统可执行上述任意实施例所述的声纹识别方法,并配置在终端中。
本实施例提供的一种声纹识别系统包括:音频谱特征提取程序模块21,去噪程序模块22和识别程序模块23。
其中,音频谱特征提取程序模块21用于接收带噪语音信号,提取所述带噪语音信号中的音频谱特征;去噪程序模块22用于将所述音频谱特征输入至语音增强模型,得到去噪后的纯净音频的音频谱特征;识别程序模块23用于将所述纯净音频的音频谱特征输入至声纹识别网络,确定出纯净音频的特征向量,基于所述纯净音频的特征向量确定出识别结果。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的声纹识别方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
接收带噪语音信号,提取所述带噪语音信号中的音频谱特征;
将所述音频谱特征输入至所述语音增强模型,得到去噪后的纯净音频的音频谱特征;
将所述纯净音频的音频谱特征输入至声纹识别网络,确定出纯净音频的特征向量,基于所述纯净音频的特征向量确定出识别结果。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的语音增强模型的训练方法以及声纹识别方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音增强模型的训练方法以及声纹识别方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种语音增强模型的训练方法,包括:
接收纯净语音以及与所述纯净语音对应的带噪语音,其中,所述带噪语音的噪声包括:噪声语音和远场语音;
分别提取所述纯净语音的第一音频谱特征和所述带噪语音的第二音频谱特征;
对所述带噪语音的第二音频谱特征进行压缩以生成第一深度语音特征,具体包括,通过卷积神经网络对所述第二音频谱特征进行压缩,生成第一深度语音特征;
对所述第一深度语音特征进行去噪,得到去噪后的第二深度语音特征,具体包括,通过长短时记忆网络对所述第一深度语音特征进行逐帧去噪,得到去噪后的第二深度语音特征;
对所述第二深度语音特征进行音频谱恢复,得到所述带噪语音的第三音频谱特征,具体包括,基于反卷积神经网络对所述第二深度语音特征进行音频谱恢复,用于避免神经网络训练的梯度消失;
确定所述纯净语音的第一音频谱特征和所述带噪语音的第三音频谱特征的特征均方误差,基于所述均方误差训练所述语音增强模型,直至所述特征均方误差符合预设阈值,确定卷积-长短时记忆网络-反卷积结构的语音增强模型,其中,所述语音增强模型输入为带噪语音,将处理后的带噪语音作为输出。
2.根据权利要求1所述的方法,其中,所述卷积神经网络为四层卷积神经网络,所述卷积神经网络的卷积层通道数分别为8,16,32,64;
所述反卷积神经网络为四层反卷积神经网络,所述反卷积神经网络的反卷积层通道数分别为32,16,8,1。
3.一种声纹识别方法,包括:
接收带噪语音信号,提取所述带噪语音信号中的音频谱特征;
将所述音频谱特征输入至权利要求1或2所述的语音增强模型,得到去噪后的纯净音频的音频谱特征;
将所述纯净音频的音频谱特征输入至声纹识别网络,确定出纯净音频的特征向量,基于所述纯净音频的特征向量确定出识别结果。
4.根据权利要求3所述的方法,其中,所述确定出纯净音频的特征向量包括:
通过AM损失函数确定出纯净音频的特征向量,用于区分特征向量中的不同说话人。
5.根据权利要求3所述的方法,其中,所述接收带噪语音信号,提取所述带噪语音信号中的音频谱特征包括:
通过语音活性检测获取所述带噪语音信号中的人声信号,提取所述带噪语音信号中的人声信号的音频谱特征。
6.一种语音增强模型的训练系统,包括:
语音接收程序模块,用于接收纯净语音以及与所述纯净语音对应的带噪语音,其中,所述带噪语音的噪声包括:噪声语音和远场语音;
音频谱特征提取程序模块,用于分别提取所述纯净语音的第一音频谱特征和所述带噪语音的第二音频谱特征;
深度语音特征确定程序模块,用于对所述带噪语音的第二音频谱特征进行压缩以生成第一深度语音特征,具体包括,通过卷积神经网络对所述第二音频谱特征进行压缩,生成第一深度语音特征;
去噪程序模块,用于对所述第一深度语音特征进行去噪,得到去噪后的第二深度语音特征,具体包括,通过长短时记忆网络对所述第一深度语音特征进行逐帧去噪,得到去噪后的第二深度语音特征;
音频谱恢复程序模块,用于对所述第二深度语音特征进行音频谱恢复,得到所述带噪语音的第三音频谱特征,具体包括,基于反卷积神经网络对所述第二深度语音特征进行音频谱恢复,用于避免神经网络训练的梯度消失;
模型训练程序模块,用于确定所述纯净语音的第一音频谱特征和所述带噪语音的第三音频谱特征的特征均方误差,基于所述均方误差训练所述语音增强模型,直至所述特征均方误差符合预设阈值,确定卷积-长短时记忆网络-反卷积结构的语音增强模型,其中,所述语音增强模型输入为带噪语音,将处理后的带噪语音作为输出。
7.一种声纹识别系统,包括:
音频谱特征提取程序模块,用于接收带噪语音信号,提取所述带噪语音信号中的音频谱特征;
去噪程序模块,用于将所述音频谱特征输入至权利要求6所述的语音增强模型,得到去噪后的纯净音频的音频谱特征;
识别程序模块,用于将所述纯净音频的音频谱特征输入至声纹识别网络,确定出纯净音频的特征向量,基于所述纯净音频的特征向量确定出识别结果。
8.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述方法的步骤。
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911337710.2A CN110956957B (zh) | 2019-12-23 | 2019-12-23 | 语音增强模型的训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911337710.2A CN110956957B (zh) | 2019-12-23 | 2019-12-23 | 语音增强模型的训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110956957A CN110956957A (zh) | 2020-04-03 |
CN110956957B true CN110956957B (zh) | 2022-05-17 |
Family
ID=69983542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911337710.2A Active CN110956957B (zh) | 2019-12-23 | 2019-12-23 | 语音增强模型的训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110956957B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696567B (zh) * | 2020-06-12 | 2022-04-01 | 思必驰科技股份有限公司 | 用于远场通话的噪声估计方法及系统 |
CN111755013B (zh) * | 2020-07-07 | 2022-11-18 | 思必驰科技股份有限公司 | 去噪自动编码器训练方法和说话人识别系统 |
CN111883091B (zh) * | 2020-07-09 | 2024-07-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频降噪方法和音频降噪模型的训练方法 |
CN111863003B (zh) * | 2020-07-24 | 2022-04-15 | 思必驰科技股份有限公司 | 语音数据增强方法和装置 |
CN112002343B (zh) * | 2020-08-18 | 2024-01-23 | 海尔优家智能科技(北京)有限公司 | 语音纯度的识别方法、装置、存储介质及电子装置 |
CN112017681B (zh) * | 2020-09-07 | 2022-05-13 | 思必驰科技股份有限公司 | 定向语音的增强方法及系统 |
CN112309426B (zh) * | 2020-11-24 | 2024-07-12 | 北京达佳互联信息技术有限公司 | 语音处理模型训练方法及装置和语音处理方法及装置 |
CN112992170B (zh) * | 2021-01-29 | 2022-10-28 | 青岛海尔科技有限公司 | 模型训练方法及装置、存储介质及电子装置 |
CN113191220A (zh) * | 2021-04-15 | 2021-07-30 | 广州紫为云科技有限公司 | 一种基于深度学习的双层车牌识别方法 |
CN113393852B (zh) * | 2021-08-18 | 2021-11-05 | 杭州雄迈集成电路技术股份有限公司 | 语音增强模型的构建方法及系统、语音增强方法及系统 |
CN116092465B (zh) * | 2023-03-31 | 2023-06-23 | 彩讯科技股份有限公司 | 一种车载音频降噪方法、装置、存储介质和电子设备 |
CN116366927B (zh) * | 2023-04-07 | 2024-04-19 | 北京海上升科技有限公司 | 基于区块链的视频直播智能交互和大数据管理方法及系统 |
CN116723343B (zh) * | 2023-08-08 | 2024-06-07 | 北京赛博日新科技有限公司 | 基于区块链的网络直播大数据智能监测和存储方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100861653B1 (ko) * | 2007-05-25 | 2008-10-02 | 주식회사 케이티 | 음성 특징을 이용한 네트워크 기반 분산형 음성 인식단말기, 서버, 및 그 시스템 및 그 방법 |
CN108777146A (zh) * | 2018-05-31 | 2018-11-09 | 平安科技(深圳)有限公司 | 语音模型训练方法、说话人识别方法、装置、设备及介质 |
CN109215665A (zh) * | 2018-07-20 | 2019-01-15 | 广东工业大学 | 一种基于3d卷积神经网络的声纹识别方法 |
CN109256127A (zh) * | 2018-11-15 | 2019-01-22 | 江南大学 | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 |
CN109524020A (zh) * | 2018-11-20 | 2019-03-26 | 上海海事大学 | 一种语音增强处理方法 |
CN109712611A (zh) * | 2018-12-28 | 2019-05-03 | 苏州思必驰信息科技有限公司 | 联合模型训练方法及系统 |
CN109785852A (zh) * | 2018-12-14 | 2019-05-21 | 厦门快商通信息技术有限公司 | 一种增强说话人语音的方法及系统 |
CN110322891A (zh) * | 2019-07-03 | 2019-10-11 | 南方科技大学 | 一种语音信号的处理方法、装置、终端及存储介质 |
CN110456332A (zh) * | 2019-08-12 | 2019-11-15 | 哈尔滨工程大学 | 一种基于自动编码器的水声信号增强方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10789941B2 (en) * | 2018-09-28 | 2020-09-29 | Intel Corporation | Acoustic event detector with reduced resource consumption |
-
2019
- 2019-12-23 CN CN201911337710.2A patent/CN110956957B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100861653B1 (ko) * | 2007-05-25 | 2008-10-02 | 주식회사 케이티 | 음성 특징을 이용한 네트워크 기반 분산형 음성 인식단말기, 서버, 및 그 시스템 및 그 방법 |
CN108777146A (zh) * | 2018-05-31 | 2018-11-09 | 平安科技(深圳)有限公司 | 语音模型训练方法、说话人识别方法、装置、设备及介质 |
CN109215665A (zh) * | 2018-07-20 | 2019-01-15 | 广东工业大学 | 一种基于3d卷积神经网络的声纹识别方法 |
CN109256127A (zh) * | 2018-11-15 | 2019-01-22 | 江南大学 | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 |
CN109524020A (zh) * | 2018-11-20 | 2019-03-26 | 上海海事大学 | 一种语音增强处理方法 |
CN109785852A (zh) * | 2018-12-14 | 2019-05-21 | 厦门快商通信息技术有限公司 | 一种增强说话人语音的方法及系统 |
CN109712611A (zh) * | 2018-12-28 | 2019-05-03 | 苏州思必驰信息科技有限公司 | 联合模型训练方法及系统 |
CN110322891A (zh) * | 2019-07-03 | 2019-10-11 | 南方科技大学 | 一种语音信号的处理方法、装置、终端及存储介质 |
CN110456332A (zh) * | 2019-08-12 | 2019-11-15 | 哈尔滨工程大学 | 一种基于自动编码器的水声信号增强方法 |
Non-Patent Citations (2)
Title |
---|
《A Study of Training Targets for Deep Neural Network-Based Speech Enhancement Using Noise Prediction》;Babafemi O et al.;《2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20180913;全文 * |
《基于深度学习的语音增强方法研究》;刘鹏;《智能计算机与应用》;20190930;第9卷(第5期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110956957A (zh) | 2020-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110956957B (zh) | 语音增强模型的训练方法及系统 | |
CN110211575B (zh) | 用于数据增强的语音加噪方法及系统 | |
CN109473123B (zh) | 语音活动检测方法及装置 | |
AU2018226844B2 (en) | Method and apparatus for detecting spoofing conditions | |
CN109326299B (zh) | 基于全卷积神经网络的语音增强方法、装置及存储介质 | |
CN108877823B (zh) | 语音增强方法和装置 | |
CN106486130B (zh) | 噪声消除、语音识别方法及装置 | |
CN110648692B (zh) | 语音端点检测方法及系统 | |
CN108417224B (zh) | 双向神经网络模型的训练和识别方法及系统 | |
CN109147798B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN104766608A (zh) | 一种语音控制方法及装置 | |
CN111863003B (zh) | 语音数据增强方法和装置 | |
CN111145730A (zh) | 语音识别模型的优化方法及系统 | |
CN114333912B (zh) | 语音激活检测方法、装置、电子设备和存储介质 | |
CN113299306B (zh) | 回声消除方法、装置、电子设备及计算机可读存储介质 | |
CN111108554A (zh) | 一种基于语音降噪的声纹识别方法和相关装置 | |
CN114255782A (zh) | 说话人语音增强方法、电子设备和存储介质 | |
CN112331187B (zh) | 多任务语音识别模型训练方法、多任务语音识别方法 | |
CN115376538A (zh) | 用于交互的语音降噪方法、系统、电子设备和存储介质 | |
CN115762557A (zh) | 用于语音分离的自监督训练预测器的训练方法及系统 | |
CN110797008A (zh) | 一种远场语音识别方法、语音识别模型训练方法和服务器 | |
CN115457973A (zh) | 说话人分割方法、系统、终端及存储介质 | |
CN115050374A (zh) | 特征融合方法、电子设备和存储介质 | |
CN114220451A (zh) | 音频消噪方法、电子设备和存储介质 | |
TWI749547B (zh) | 應用深度學習的語音增強系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |