CN112071308A - 一种基于语音合成数据增强的唤醒词训练方法 - Google Patents
一种基于语音合成数据增强的唤醒词训练方法 Download PDFInfo
- Publication number
- CN112071308A CN112071308A CN202010955500.6A CN202010955500A CN112071308A CN 112071308 A CN112071308 A CN 112071308A CN 202010955500 A CN202010955500 A CN 202010955500A CN 112071308 A CN112071308 A CN 112071308A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- voice
- word
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 14
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 14
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 15
- 238000003062 neural network model Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 6
- 235000014653 Carica parviflora Nutrition 0.000 claims description 12
- 241000243321 Cnidaria Species 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 230000003247 decreasing effect Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 5
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 3
- 238000012850 discrimination method Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000013434 data augmentation Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000000670 limiting effect Effects 0.000 description 5
- 230000000873 masking effect Effects 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及音频信号处理,语音识别等技术领域,更具体地,涉及一种基于语音合成数据增强的唤醒词训练方法。包括以下步骤:S1.获取语音数据之后,对语音数据进行数据扩充,增加训练数据量;S2.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;S3.利用步骤S2提取的特征训练神经网络模型:对于卷积神经网络系统,训练卷积神经网络之后,利用该模型计算每一帧是唤醒词的后验概率;S4.由置信度计算语音数据唤醒词的最后得分;S5.将步骤S4计算的最后得分与预先设定的阈值进行比较,判定是否触发。有效提高了系统对混淆词的识别率。
Description
技术领域
本发明涉及音频信号处理,语音识别等技术领域,更具体地,涉及一种基于语音合成数据增强的唤醒词训练方法。
背景技术
随着智能语音助手的出现,唤醒词识别系统在人机交互中发挥着越来越重要的作用。唤醒词识别旨在检测连续音频流中预定义的关键字或一组关键字。因此,设备上的唤醒词系统要求实时响应和低的计算成本,同时限制内存的消耗和计算设备数量。同时,它对不同的复杂词的检测精度和鲁棒性要求很高。
传统的方法中存在以下问题:问题一,传统方法的泛化性能还不足,识别的误报率和虚警率都较高。难以投入使用。问题二,由于与唤醒词相似的混淆词真实样本难以采集,可使用的数据相对较少。训练性能高,鲁棒性强的模型有较高难度。同时,数据不平衡的问题也会影响系统的整体表现。问题三,神经网络的建模单元选择不妥当,当前大部分的神经网络的建模单元为整个唤醒词或者唤醒词中的单独字,这会导致神经网络很可能只会识别唤醒词中的部分特征。在传统方法中,语音合成技术没有得到充分利用。
发明内容
本发明为克服上述现有技术中的至少一个缺陷,提供一种基于语音合成数据增强的唤醒词训练方法,有效提高了系统对混淆词的识别率。
为解决上述技术问题,本发明采用的技术方案是:一种基于语音合成数据增强的唤醒词训练方法,包括以下步骤:
S1.获取语音数据之后,对语音数据进行数据扩充,增加训练数据量;
S2.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;
S3.利用步骤S2提取的特征训练神经网络模型:对于卷积神经网络系统,训练卷积神经网络之后,利用该模型计算每一帧是唤醒词的后验概率;
S4.由置信度计算语音数据唤醒词的最后得分;
S5.将步骤S4计算的最后得分与预先设定的阈值进行比较,判定是否触发。
在其中一个实施例中,所述的语音数据扩充采用掩盖语音扩充方法和合成语音数据扩充方法。
在其中一个实施例中,所述的S2步骤中选择对数梅尔频谱特征进行特征提取。
在其中一个实施例中,所述的对数梅尔频谱特征的提取具体包括:
S21.对语音信号序列进行短时傅里叶变换;短时傅里叶变换是一种在音频处理领域常用的时频变换工具,它通过在语音上分帧,加窗,傅里叶变换,取模等操作,将时域的波形转换成频谱图;
S22.对生成的频率频谱图做梅尔变换;
S23.在进行梅尔变换处理完毕之后,进行对数变换,降低特征稀疏性。
在其中一个实施例中,所述的步骤S3中,在进行训练之前,先对提取的特征进行前后若干帧的拼接,从而增加上下文信息。
在其中一个实施例中,所述的步骤S3中所选用的卷积神经网络结构由三个卷积层组成,每个卷积层后面都有一个最大池层;卷积核大小为(3,3),步长为(1,1),最大池大小设置为(2,2);然后,使用两个全连接层和一个最终的softmax激活函数来预测唤醒词的概率;在隐层中用整流线性单元ReLU作为激活函数。
在其中一个实施例中,计算在卷积神经网络最后全连接层的倒数第二层输出上的CORAL损失Lcoral;将真实正样本、合成负样本、真实正样本三个领域的数据收集在一起进行训练,计算损失的策略如下:
其中,交叉熵损失Lce是通过源分布和目标分布的数据逻辑来计算的;Ctrue-neg、Csynt-neg和Ctrue-neg表示用于CORAL计算的嵌入特征的协方差矩阵;
最后,通过最小化联合损失,使合成负样本与真实负样本的嵌入特征差异最小化,并使合成负样本与真实正样本的嵌入特征差异最大化。
在其中一个实施例中,假设得到了源训练数据DS={xi}和目标数据DT={ui},假设源数据和目标数据的数量分别为nS和nT;x和u都是要学习的输入I的d维深层激活Φ(I);假设表示第i个源数据示例的第j维,CS(CT)表示特征协方差矩阵;CORAL损失定义为:
在其中一个实施例中,在训练过程中采用有监督的训练,监督的目标为唤醒词语音和其他语音;训练的时候,初始设置较大的学习率,在每个迭代周期当中,累计计算整一轮的损失平均值;若损失平均值下降,则保持学习率继续学习,如果损失平均值提高,或者保持不变,则降低学习率。
在其中一个实施例中,经过训练后,模型将声学特征序列转化为唤醒词的后验概率序列;由于是二元目标模型,置信度计算采用直接判别法进行决策;在输入信号长度为Ts的滑动窗口上反复进行唤醒词检测算法,以从连续的音频流中检测关键字;将作为包含N帧的X段上的一个输入窗口;然后使用最大值定义关键字得分,如下所示:
其中,Pkeyword(x(t),Φ)是关键字标签在t帧处的后验概率;该算法的时间复杂度为O(N),适合于实时应用。
本发明提供一种新的基于深度神经网络的唤醒词训练算法,通过一种基于深度学习的唤醒词识别算法对设备采集到的音频流进行分析,达到检测唤醒词的目的。本发明能够通过基于多说话人的语音合成技术来进行数据扩充,减轻混淆词数据量不足带来的性能难以提高问题。通过加入新的损失函数CORAL的方法,充分加大混淆词与正样本特征之间的统计距离,缩小混淆词与负样本特征之间的统计距离。通过深度学习训练,让系统达到较好的泛化性能。本发明的主要应用在于对唤醒词进行检测,保证智能设备更好的用户体验。
与现有技术相比,有益效果是:
1.本发明通过合成音频和掩盖音频的数据扩充方法,充分利用了已有的数据,使得模型更加稳定,抗噪声性能更强。相较于传统唤醒词识别模型,在含有混淆词的识别环境中展现了99%的性能提高。
2.本发明算法使用了加入CORAL损失的神经网络模型。相对于只用交叉熵损失的传统神经网络模型能够得到更高的识别准确率。在具体应用中能够更加鲁棒,稳定。
附图说明
图1是本发明方法整体流程图。
图2是本发明卷积神经网络模型结构示意图。
图3是本发明实施例中模型训练阶段结构示意图。
图4是本发明实施例中模型测试阶段结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
如图1所示,本发明提供一种基于语音合成数据增强的唤醒词训练方法,包括以下步骤:
S1.获取语音数据之后,对语音数据进行数据扩充,增加训练数据量;
S2.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;
S3.利用步骤S2提取的特征训练神经网络模型:对于卷积神经网络系统,训练卷积神经网络之后,利用该模型计算每一帧是唤醒词的后验概率;
S4.由置信度计算语音数据唤醒词的最后得分;
S5.将步骤S4计算的最后得分与预先设定的阈值进行比较,判定是否触发。
在语音识别和唤醒词识别领域,复杂词汇和语音条件的影响是一个共同关注的问题。在测试数据集上表现良好的模型在现实生活中往往表现不佳。本发明提出两种算法。第一种算法将掩蔽的正数据集作为负样本,以提高模型的鲁棒性。第二种方法是将多说话人语音合成器产生的混淆词样本与负样本混合,并应用CORAL损失来降低混淆语音模型的失真。
本实施例采用多说话人语音合成器或者掩盖算法生成语音,以提高在含有混淆词环境下的网络性能。该方法的灵感来自于语音识别领域中最大互信息(MMI)准则。首先,进行端到端的无状态时间建模,它可以在限制计算量的同时利用上下文信息。端到端模型指的是一个简单的模型,它具有不需要精确的音素对齐的二元识别模型。进一步证明,在含有混淆词样本的情况下,利用语音合成网络生成的语音样本进行训练,可以使系统的准确率提高99.9%。
在其中一个实施例中,所述的语音数据扩充采用掩盖语音扩充方法和合成语音数据扩充方法。
掩盖语音数据扩充:这种方法的灵感来自于人脸识别。在人脸识别中,掩盖正性样本被当作正样本进行训练。在本文中,我们将这种方法扩展到提高模型鲁棒性的任务中。与人脸识别不同,模型必须在触发前识别出唤醒词的所有特征。因此,屏蔽正样本需要作为负样本去增加已经存在的真实数据。例如,一个正采样音频的40%-60%被高斯白噪声代替。重复上述操作5次,每个正样本可产生5个负样本。
合成语音数据扩充方法:数据不足是训练模型中经常遇到的问题。而对在混淆词环境下的唤醒词识别任务来说,这个问题尤为严重,因为相关的数据采集难度大,成本高。同时,采集来的数据的不平衡问题也会严重影响模型的识别效果。因此,数据扩充在神经网络模型训练当中非常重要。在本实施例中,采用了基于语音合成系统的数据扩充方法。使用基于Tacotron 2的文本转语音系统,使用10000种不同的声音来合成12个混淆词音频和与唤醒词无关的音频。唤醒词无关音频的文本信息来自开源数据集Aishell2。这些示例的质量类似于使用Google Cloud Text-to-Speech API生成的音频质量。
在其中一个实施例中,所述的S2步骤中选择对数梅尔频谱特征进行特征提取。将数据扩充完毕之后,接下来进行声学特征的提取,将一维的语音信号转换成二维的声学特征。它能够降低特征的维度,使得信息更容易被模型学习。本专利选择对数梅尔频谱特征。对数梅尔谱频谱特征的提取方法如下:
1.对语音信号序列进行短时傅里叶变换。短时傅里叶变换是一种在音频处理领域常用的时频变换工具,它通过在语音上分帧,加窗,傅里叶变换,取模等操作,将时域的波形转换成频谱图;
2.对生成的频率频谱图做梅尔变换。它等效于让特征通过一组三角滤波器。这组三角滤波器有以下的特点,它在低频位置有较高的幅值,较窄的频宽。随着频率的升高,三角滤波器的幅值逐渐降低,频宽逐渐下降。它的作用是重点突出某些频率的信息,使得后续的模型能够更快地学习到频谱的特征规律;
3.在进行梅尔变换处理完毕之后,进行对数变换,降低特征稀疏性。
在本实施例中采用每50毫秒计算80维对数梅尔谱频谱特征,帧移25ms。
在其中一个实施例中,所述的步骤S3中,在进行训练之前,先对提取的特征进行前后若干帧的拼接,从而增加上下文信息。
另外,所述的步骤S3中所选用的卷积神经网络结构由三个卷积层组成,每个卷积层后面都有一个最大池层;卷积核大小为(3,3),步长为(1,1),最大池大小设置为(2,2);然后,使用两个全连接层和一个最终的softmax激活函数来预测唤醒词的概率;在隐层中用整流线性单元ReLU作为激活函数。
在其中一个实施例中,计算在卷积神经网络最后全连接层的倒数第二层输出上的CORAL损失Lcoral;将真实正样本、合成负样本、真实正样本三个领域的数据收集在一起进行训练,计算损失的策略如下:
其中,交叉熵损失Lce是通过源分布和目标分布的数据逻辑来计算的;Ctrue-neg、Csynt-neg和Ctrue-neg表示用于CORAL计算的嵌入特征的协方差矩阵;
最后,通过最小化联合损失,使合成负样本与真实负样本的嵌入特征差异最小化,并使合成负样本与真实正样本的嵌入特征差异最大化。
另外,假设得到了源训练数据DS={xi}和目标数据DT={ui},假设源数据和目标数据的数量分别为nS和nT;x和u都是要学习的输入I的d维深层激活Φ(I);假设表示第i个源数据示例的第j维,CS(CT)表示特征协方差矩阵;CORAL损失定义为:
在其中一个实施例中,在训练过程中采用有监督的训练,监督的目标为唤醒词语音和其他语音;训练的时候,初始设置较大的学习率,在每个迭代周期当中,累计计算整一轮的损失平均值;若损失平均值下降,则保持学习率继续学习,如果损失平均值提高,或者保持不变,则降低学习率。
在其中一个实施例中,经过训练后,模型将声学特征序列转化为唤醒词的后验概率序列;由于是二元目标模型,置信度计算采用直接判别法进行决策;在输入信号长度为Ts的滑动窗口上反复进行唤醒词检测算法,以从连续的音频流中检测关键字;将作为包含N帧的X段上的一个输入窗口;然后使用最大值定义关键字得分,如下所示:
其中,Pkeyword(x(t),Φ)是关键字标签在t帧处的后验概率;该算法的时间复杂度为O(N),适合于实时应用。一旦置信度超过预先设定的阈值,系统就会触发。
为了方便理解,这里举例说明。
训练阶段:如图3所示,先准备好采集到的单通道16kHz的唤醒词正样本数据以及非唤醒词负样本数据。之后,对数据进行数据扩充。数据扩充的手段包括:掩盖语音数据扩充以及合成语音数据扩充。对于掩盖语音数据扩充,一个正采样音频的40%-60%被高斯白噪声代替。重复上述操作5次,每个正样本可产生5个负样本。对于合成语音数据扩充,使用合成音频质量较好的基于Tacotron 2的文本转语音系统,使用10000种不同的声音来合成12个混淆词音频和与唤醒词无关的音频。唤醒词无关音频的文本信息可以自定。
数据扩充完之后。可以使用语音识别系统对扩充之后的数据进行字级别的对齐,以唤醒词的第一个字为时间起点,之后的1.4s作为识别单元。提取短时傅里叶频谱特征。可以采取1024个点的短时傅里叶变换,帧长0.05s,帧移0.025s。提取对数梅尔谱的时候,梅尔滤波器数目选择为80,可以得到121帧的频谱特征。
在基于卷积神经网络的系统中,可以使用上述神经网络结构,将频谱特征输入其中,使用是否为唤醒词作为标签监督。使用上述CORAL损失与交叉熵损失的组合作为整个网络的损失函数。使用Nesterov动量随机梯度下降法作为优化器。初始设置较大的学习率,在每个迭代周期当中,累计计算整一轮的损失平均值。若损失平均值下降,则保持学习率继续学习,如果损失平均值提高,或者保持不变,则降低学习率。
测试阶段:如图4所示,对于收音设备采集回来的音频流进行实时的静音检测,若当前音频段为静音则不做任何处理;若当前音频段中存在声音,则对音频段进行上述方法的特征提取。当连续的音频特征满足神经网络结构的输入,使用训练好的网络结构进行识别,随后对识别所得的唤醒词后验概率进行置信度打分,得分超过预先所定阈值则系统触发。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于语音合成数据增强的唤醒词训练方法,其特征在于,包括以下步骤:
S1.获取语音数据之后,对语音数据进行数据扩充,增加训练数据量;
S2.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;
S3.利用步骤S2提取的特征训练神经网络模型:对于卷积神经网络系统,训练卷积神经网络之后,利用该模型计算每一帧是唤醒词的后验概率;
S4.由置信度计算语音数据唤醒词的最后得分;
S5.将步骤S4计算的最后得分与预先设定的阈值进行比较,判定是否触发。
2.根据权利要求1所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,所述的语音数据扩充采用掩盖语音扩充方法和合成语音数据扩充方法。
3.根据权利要求1所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,所述的S2步骤中选择对数梅尔频谱特征进行特征提取。
4.根据权利要求3所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,所述的对数梅尔频谱特征的提取具体包括:
S21.对语音信号序列进行短时傅里叶变换;短时傅里叶变换是一种在音频处理领域常用的时频变换工具,它通过在语音上分帧,加窗,傅里叶变换,取模等操作,将时域的波形转换成频谱图;
S22.对生成的频率频谱图做梅尔变换;
S23.在进行梅尔变换处理完毕之后,进行对数变换,降低特征稀疏性。
5.根据权利要求1所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,所述的步骤S3中,在进行训练之前,先对提取的特征进行前后若干帧的拼接,从而增加上下文信息。
6.根据权利要求1所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,所述的步骤S3中所选用的卷积神经网络结构由三个卷积层组成,每个卷积层后面都有一个最大池层;卷积核大小为(3,3),步长为(1,1),最大池大小设置为(2,2);然后,使用两个全连接层和一个最终的softmax激活函数来预测唤醒词的概率;在隐层中用整流线性单元ReLU作为激活函数。
9.根据权利要求7所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,在训练过程中采用有监督的训练,监督的目标为唤醒词语音和其他语音;训练的时候,初始设置较大的学习率,在每个迭代周期当中,累计计算整一轮的损失平均值;若损失平均值下降,则保持学习率继续学习,如果损失平均值提高,或者保持不变,则降低学习率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010955500.6A CN112071308A (zh) | 2020-09-11 | 2020-09-11 | 一种基于语音合成数据增强的唤醒词训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010955500.6A CN112071308A (zh) | 2020-09-11 | 2020-09-11 | 一种基于语音合成数据增强的唤醒词训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112071308A true CN112071308A (zh) | 2020-12-11 |
Family
ID=73696549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010955500.6A Pending CN112071308A (zh) | 2020-09-11 | 2020-09-11 | 一种基于语音合成数据增强的唤醒词训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112071308A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634860A (zh) * | 2020-12-29 | 2021-04-09 | 苏州思必驰信息科技有限公司 | 儿童语音识别模型训练语料筛选方法 |
CN113129868A (zh) * | 2021-03-12 | 2021-07-16 | 北京百度网讯科技有限公司 | 获取语音识别模型的方法、语音识别的方法及对应装置 |
CN114420098A (zh) * | 2022-01-20 | 2022-04-29 | 思必驰科技股份有限公司 | 唤醒词检测模型训练方法、电子设备和存储介质 |
CN114817456A (zh) * | 2022-03-10 | 2022-07-29 | 马上消费金融股份有限公司 | 关键词检测方法、装置、计算机设备及存储介质 |
CN115116442A (zh) * | 2022-08-30 | 2022-09-27 | 荣耀终端有限公司 | 语音交互方法和电子设备 |
CN116504234A (zh) * | 2023-05-29 | 2023-07-28 | 镁佳(北京)科技有限公司 | 一种语音唤醒与检测模型的生成方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555467A (zh) * | 2019-08-13 | 2019-12-10 | 深圳创新奇智科技有限公司 | 一种基于模型迁移的工业数据分类方法 |
CN110827837A (zh) * | 2019-10-18 | 2020-02-21 | 中山大学 | 一种基于深度学习的鲸鱼活动音频分类方法 |
CN110838289A (zh) * | 2019-11-14 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 基于人工智能的唤醒词检测方法、装置、设备及介质 |
-
2020
- 2020-09-11 CN CN202010955500.6A patent/CN112071308A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555467A (zh) * | 2019-08-13 | 2019-12-10 | 深圳创新奇智科技有限公司 | 一种基于模型迁移的工业数据分类方法 |
CN110827837A (zh) * | 2019-10-18 | 2020-02-21 | 中山大学 | 一种基于深度学习的鲸鱼活动音频分类方法 |
CN110838289A (zh) * | 2019-11-14 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 基于人工智能的唤醒词检测方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
刘凯: "基于深度学习的语音唤醒研究及其应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634860A (zh) * | 2020-12-29 | 2021-04-09 | 苏州思必驰信息科技有限公司 | 儿童语音识别模型训练语料筛选方法 |
CN112634860B (zh) * | 2020-12-29 | 2022-05-03 | 思必驰科技股份有限公司 | 儿童语音识别模型训练语料筛选方法 |
CN113129868A (zh) * | 2021-03-12 | 2021-07-16 | 北京百度网讯科技有限公司 | 获取语音识别模型的方法、语音识别的方法及对应装置 |
CN113129868B (zh) * | 2021-03-12 | 2022-02-25 | 北京百度网讯科技有限公司 | 获取语音识别模型的方法、语音识别的方法及对应装置 |
CN114420098A (zh) * | 2022-01-20 | 2022-04-29 | 思必驰科技股份有限公司 | 唤醒词检测模型训练方法、电子设备和存储介质 |
CN114420098B (zh) * | 2022-01-20 | 2024-09-03 | 思必驰科技股份有限公司 | 唤醒词检测模型训练方法、电子设备和存储介质 |
CN114817456A (zh) * | 2022-03-10 | 2022-07-29 | 马上消费金融股份有限公司 | 关键词检测方法、装置、计算机设备及存储介质 |
CN114817456B (zh) * | 2022-03-10 | 2023-09-05 | 马上消费金融股份有限公司 | 关键词检测方法、装置、计算机设备及存储介质 |
CN115116442A (zh) * | 2022-08-30 | 2022-09-27 | 荣耀终端有限公司 | 语音交互方法和电子设备 |
CN115116442B (zh) * | 2022-08-30 | 2023-01-10 | 荣耀终端有限公司 | 语音交互方法和电子设备 |
CN116504234A (zh) * | 2023-05-29 | 2023-07-28 | 镁佳(北京)科技有限公司 | 一种语音唤醒与检测模型的生成方法、装置、设备及介质 |
CN116504234B (zh) * | 2023-05-29 | 2023-10-13 | 镁佳(北京)科技有限公司 | 一种语音唤醒与检测模型的生成方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11062699B2 (en) | Speech recognition with trained GMM-HMM and LSTM models | |
CN112071308A (zh) | 一种基于语音合成数据增强的唤醒词训练方法 | |
WO2018227781A1 (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
Arora et al. | Automatic speech recognition: a review | |
CN111243575A (zh) | 基于扩张卷积神经网络的方言种属识别方法 | |
CN109524011A (zh) | 一种基于声纹识别的冰箱唤醒方法及装置 | |
Chaudhary et al. | Gender identification based on voice signal characteristics | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
Mistry et al. | Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann) | |
CN108091340B (zh) | 声纹识别方法、声纹识别系统和计算机可读存储介质 | |
CN110265063A (zh) | 一种基于固定时长语音情感识别序列分析的测谎方法 | |
Sinha et al. | Acoustic-phonetic feature based dialect identification in Hindi Speech | |
Sun et al. | A novel convolutional neural network voiceprint recognition method based on improved pooling method and dropout idea | |
CN112825250A (zh) | 语音唤醒方法、设备、存储介质及程序产品 | |
Verma et al. | An acoustic analysis of speech for emotion recognition using deep learning | |
Gaudani et al. | Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language | |
Dharmale et al. | Evaluation of phonetic system for speech recognition on smartphone | |
Khaing et al. | Myanmar continuous speech recognition system based on DTW and HMM | |
Jadhav et al. | Review of various approaches towards speech recognition | |
Zhuang et al. | Multi-task joint-learning for robust voice activity detection | |
Narayanan et al. | Coupling binary masking and robust ASR | |
CN107039046B (zh) | 一种基于特征融合的语音声效模式检测方法 | |
Shahrul Azmi et al. | Noise robustness of Spectrum Delta (SpD) features in Malay vowel recognition | |
Gowda et al. | Continuous kannada speech segmentation and speech recognition based on threshold using MFCC and VQ | |
Wang et al. | Artificial Intelligence and Machine Learning Application in NPP MCR Speech Monitoring System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |