CN112435655A - 一种孤立词语音识别的数据采集及模型训练方法及装置 - Google Patents
一种孤立词语音识别的数据采集及模型训练方法及装置 Download PDFInfo
- Publication number
- CN112435655A CN112435655A CN202011114475.5A CN202011114475A CN112435655A CN 112435655 A CN112435655 A CN 112435655A CN 202011114475 A CN202011114475 A CN 202011114475A CN 112435655 A CN112435655 A CN 112435655A
- Authority
- CN
- China
- Prior art keywords
- isolated word
- voice
- speech
- network
- isolated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000009432 framing Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 2
- 238000013480 data collection Methods 0.000 claims 3
- 238000013499 data model Methods 0.000 claims 3
- 230000007613 environmental effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种孤立词语音识别的数据采集及模型训练方法及装置,涉及语音识别技术领域,用以在保证语音识别鲁棒性的前提下,降低孤立词语音样本采集的成本,提高采集效率。该方法包括:分批次的采集孤立词语音,利用第一批次或前几个批次采集“嘈杂环境”孤立词语音和“固定环境”孤立词语音对“Y型”网络进行训练。后续批次只采集“固定环境”孤立词语音,网络训练时只更新语义特征子网络的模型参数(见说明书附图图1)。
Description
技术领域
本发明涉及语音处理、语音识别技术领域,特别涉及一种孤立词语音识别的数据采集及模型训练方法及装置。
背景技术
目前,在一些领域(如手机应用、智能家具、工业控制等),可能会涉及设备唤醒、设备状态的按需改变。如果采用按键方式,实现上述功能,则便捷性不强。
采用特定语音对设备进行唤醒、或以语音命令的方式改变设备状态,具有非接触、实时性强的优点,提升了用户的应用体验。
由于应用环境、语音采集设备的差异,语音信号会受到环境噪声、周围人声、信道扭曲等因素的影响。一个成功的语音识别系统必须能应付所有这类声音的变化因素。
为此,在语音样本采集和样本增扩的过程中,需要考虑上述的变化因素,以达到良好的识别效果。例如,不同用户设备的麦克风品牌、型号存在差异,语音识别系统需要识别不同信道扭曲的语音信号。此时,语音样本采集需要针对不同品牌、型号的麦克风进行。
孤立词语音识别系统对比通用的语音识别系统有其独特性:(1)识别短语或孤立词语音;(2)“识别词”的数量有限,一般几个或十几个;(3)“识别词”一般由客户指定,例如某生产儿童玩具的客户,指定“幸运猫”为其毛绒猫玩具的唤醒词。
孤立词语音识别系统的“识别词”与应用的强相关性,“识别词”语音的采集通常是分批次的。即为某客户定制孤立词语音识别系统时,仅采集该客户指定的“识别词”语音。由于客户需要识别的语音是无法预知的,分批次大量采集“识别词”语音的成本十分可观。
在孤立词语音识别系统的应用中,存在应用环境类似,但识别词不同的情况。此时,分批次采集到的不同环境因素的语音样本中存在冗余信息。如果仅采集特定环境因素的语音样本,并据此来训练语音识别模型,识别性能会受到影响。因此,如何更加有效的采集语音样本,采用哪种策略进行语音识别模型训练,保证识别效果的鲁棒性,是有待解决的问题。
发明内容
为解决上述技术问题,本发明的实施例提供一种孤立词语音识别的数据采集及模型训练方法及装置,以达到提升孤立词语音样本的采集效率,增强语音识别鲁棒性的目的,技术方案如下:
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供了分批次孤立词语音数据的采集方法,该方法包括:
针对客户产品的特定应用场景(例如家居环境、工业环境等),第一批次或前几个批次采集的语音样本包含“嘈杂环境”孤立词语音和“固定环境”孤立词语音。此处,“嘈杂环境”孤立词语音是指充分包含环境噪声、信道扭曲、语调、语速等变化因素语音样本。 “固定环境”孤立词语音是指“固定”环境噪声、“固定”信道扭曲、“固定”语调等的语音样本,例如在安静的室内、使用特定类型的麦克风采集的语音样本。后续批次可以只采集“固定环境”孤立词语音。
第二方面,提供了孤立词语音识别网络的训练方法,该方法包括:
针对第一批次或前几个批次采集的孤立词语音样本采用“Y型”网络进行训练,见图1。“Y型”网络有一个输入,即“嘈杂环境”孤立词语音,它可以是原始语音或语谱图(如MFCC、Fbank等);两个输出,即语义特征和语音重建结果。
“Y型”网络从功能上可以分成两个子网络:(1)正则化语音特征子网络,其网络结构类似与U-net,用于产生消除环境噪声、周围人声、信道扭曲等因素的语音特征,称为正则化语音特征,该特征不作为网络输出;(2)语义特征子网络,用于产生语音信号的语义特征,以实现孤立词语音的识别。
图1和图2中每个长方形(Layer*)代表一个神经元网络的层(例如卷积层、全链接层)或一个残差块,箭头表示信号的流动方向。
“Y型”网络的代价函数分成两部分:(1)分类代价采用交叉熵作为代价函数,即。其中,为语义特征的输出。(2)重建代价采用均方误差作为代价函数,即。其中是网络输入,是语音重建结果。和为同一人员、同一孤立词语音的样本,且为“嘈杂环境”孤立词语音,为“固定环境”孤立词语音。总的代价函数为,其中,和是0~1间可调系数,用于控制两部分代价函数的比例。
针对后续批次的语音,如果样本采集的方法和第一批次相同,则采用“Y型”网络进行训练。如果仅采集了“固定环境”孤立词语音,则复用“Y型”网络的部分结构,见图2所示,并“冻结”正则化语音特征产生子网络的参数,仅对语义特征产生子网络的模型参数进行更新。此时,网络的输入为“固定环境”孤立词语音,网络的代价函数仅包含分类部分,即。
第三方面,提供了一种孤立词语音识别模型的训练装置,该装置包括:
语谱图提取模块,用于获取MFCC、Fbank等语谱图;
正则化语音特征生成模块,用于产生孤立词语音的正则化特征;
语音重建模块,用于重建语音,提供给代价函数生成模块;
语义特征生成模块,用于产生孤立词语音的语义特征;
语义分类模块,用于计算输入语音归类于某个“识别词”的概率;
代价函数生成模块,用于计算分类代价和重建代价;
网络参数“冻结”指示模块,用于确定正则化语音特征生成模块中的模型参数是否可以通过训练更新;
网络参数更新模块,用于更新模型参数。
本发明的实施例提供的一种孤立词语音识别的数据采集及模型训练方法及装置,通过将语音样本分为“嘈杂环境”孤立词语音和“固定环境”孤立词语音两类,利用“Y型”网络进行孤立词语音模型训练,在保证识别鲁棒性的前提下,降低孤立词语音样本采集的成本,提高采集效率。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细说明。
图1 是本发明提供的采用“嘈杂环境”孤立词语音和“固定环境”孤立词语音对整个“Y型”网络进行训练的结构框图。
图2 是本发明提供的采用“固定环境”孤立词语音对语义特征产生子网络进行训练的结构框图。
图3 是本发明实施例提供的一种孤立词语音采集及识别方法的流程图.
图4 是本发明实施例提供的“Y型”网络结构框图。
图5 是本发明实施例提供的孤立词语音识别网络模型训练装置图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明实施例公开了一种孤立词语音识别的数据采集及模型训练方法及装置,包括:采用分批次方式采集语音样本,第一批次或前几个批次采集的语音样本包括“嘈杂环境”孤立词语音和“固定环境”孤立词语音,后续批次可以只采集“固定环境”孤立词语音;将“嘈杂环境”语音信号和“固定环境”语音信号进行分帧,计算Fbank语谱图;利用语谱图对“Y型”网络训练,产生正则化语音特征模型参数和语义特征模型参数;如果仅利用“固定环境”语音信号进行语音识别模型训练时,则“冻结”正则化语音特征产生子网络的参数,仅更新语义特征产生子网络的模型参数。本发明可以在保证孤立词语音识别鲁棒性的前提下,降低孤立词语音样本采集的成本,提高采集效率。
接下来对本发明实施例公开的孤立词语音识别方法进行说明,参见图3,可以包括以下步骤:
步骤S11、采集初始语音样本,所述初始语音样本中包含客户指定的“识别词”语音和其它一些干扰语音。
本实施例中,语音样本分批次进行采集,针对本次客户指定的“识别词”,本批次采集该客户指定的“识别词”语音。为增加语音样本的多样性,本批次可能采集一些干扰语音。
第一批次或前几个批次采集的语音样本包括“嘈杂环境”孤立词语音和“固定环境”孤立词语音,后续批次可以只采集“固定环境”孤立词语音。
步骤S12、计算所述“嘈杂环境”孤立词语音和“固定环境”孤立词语音的语谱图。
对16KHz采样的语音信号进行分帧,帧长32ms,,重叠区域为16ms,计算所述分帧语音信号的Fbank语谱图,Mel尺度三角形滤波器的数量为40。
步骤S13、以“嘈杂环境”孤立词语音的语谱图作为输入,利用“Y型”网络,计算语义特征和语谱图重建结果。
以1.04s语音信号形成的Fbank语谱图作为“Y型”网络的输入,即的大小为64◊40。本发明实施例中的“Y型”网络,见图4所示。图中5◊5的Conv2指卷积核大小为5◊5的2D卷积层,其步长为2;GAP指全局平均池化层;FC指全链接层;DeCov2指卷积核大小为3◊3的2D反卷积层,其步长为2;3◊3的Conv2指卷积核大小为3◊3的2D卷积层,其步长为1。图中,残差块1-0和1-1的步长为2,其它残差块1-0和1-1的步长为1。
利用所述的“Y型”网络,计算语义特征和语谱图重建结果。
步骤S14、计算所述的“Y型”网络的代价函数。
步骤S15、根据所述的“Y型”网络的代价函数,更新整个网络的模型参数。
根据“Y型”网络的代价函数的结果,利用梯度下降法更新整个网络的模型参数。
步骤S21、采集初始语音样本,所述初始语音样本中包含“固定环境”下采集的客户指定的“识别词”语音。
当产生正则化语音特征的子网络训练完毕后,后续批次只采集“固定环境”孤立词语音。
步骤S22、计算所述“固定环境”孤立词语音的语谱图。
步骤S23、以“固定环境”孤立词语音的语谱图作为输入,利用局部的“Y型”网络计算语义特征,见图2所示。
步骤S25、“冻结”正则化语音特征产生子网络的参数,根据步骤S24的代价函数,更新语义特征产生子网络的模型参数。
本发明实施例还提供了一种孤立词语音识别网络模型训练的装置,如图5所示,孤立词语音识别网络模型训练装置包括:
语谱图提取模块101,用于对语音信号进行分帧,并计算MFCC、Fbank等语音特征;
正则化语音特征生成模块102,用于产生孤立词语音的正则化特征;
语音重建模块103,用于重建语音,提供给代价函数生成模块;
语义特征生成模块104,用于产生孤立词语音的语义特征;
语义分类模块105,用于计算输入语音归类于某个“识别词”的概率;
代价函数生成模块106,用于计算分类代价和重建代价;
网络参数“冻结”指示模块107,用于确定正则化语音特征生成模块中的模型参数是否可以通过训练更新;网络参数更新模块108,用于更新模型参数。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何在本发明揭露的技术范围内的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (5)
1.一种孤立词语音识别的数据采集及模型训练方法,其特征包括:
分批次的采集孤立词语音数据的方法,针对第一批次或前几个批次采集的孤立词语音样本采用“Y型”网络进行训练;
“Y型”网络从功能上可以分成两个子网络:(1)产生正则化语音特征的子网络,(2)产生语义特征的子网络;
针对后续批次的语音,仅对语义特征产生子网络的模型参数进行更新。
2.根据权利要求1所述的孤立词语音识别的数据采集及模型训练方法,其特征在于,第一批次或前几个批次采集的语音样本包含“嘈杂环境”孤立词语音和“固定环境”孤立词语音,后续批次可以只采集“固定环境”孤立词语音。
4.根据权利要求1所述的孤立词语音识别的数据采集及模型训练方法,其特征还包括:
采用第一批次或前几个批次采集的孤立词语音样本对整个“Y型”网络训练时,网络的输入是“嘈杂环境”孤立词语音;
采用后续批次采集的孤立词语音样本对部分“Y型”网络训练时,网络的输入是“固定环境”孤立词语音。
5.一种孤立词语音识别的数据采集及模型训练装置,其特征包括:
语谱图提取模块,用于对语音信号进行分帧,并计算MFCC、Fbank等语音特征;
正则化语音特征生成模块,用于产生孤立词语音的正则化特征;
语音重建模块,用于重建语音,提供给代价函数生成模块;
语义特征生成模块,用于产生孤立词语音的语义特征;
语义分类模块,用于计算输入语音归类于某个“识别词”的概率;
代价函数生成模块,用于计算分类代价和重建代价;
网络参数“冻结”指示模块,用于确定正则化语音特征生成模块中的模型参数是否可以通过训练更新;
网络参数更新模块,用于更新模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011114475.5A CN112435655B (zh) | 2020-10-16 | 2020-10-16 | 一种孤立词语音识别的数据采集及模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011114475.5A CN112435655B (zh) | 2020-10-16 | 2020-10-16 | 一种孤立词语音识别的数据采集及模型训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112435655A true CN112435655A (zh) | 2021-03-02 |
CN112435655B CN112435655B (zh) | 2023-11-07 |
Family
ID=74695630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011114475.5A Active CN112435655B (zh) | 2020-10-16 | 2020-10-16 | 一种孤立词语音识别的数据采集及模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112435655B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100217592A1 (en) * | 2008-10-14 | 2010-08-26 | Honda Motor Co., Ltd. | Dialog Prediction Using Lexical and Semantic Features |
CN101819772A (zh) * | 2010-02-09 | 2010-09-01 | 中国船舶重工集团公司第七○九研究所 | 一种基于语音分段的孤立词识别方法 |
US9633655B1 (en) * | 2013-05-23 | 2017-04-25 | Knowles Electronics, Llc | Voice sensing and keyword analysis |
CN109635116A (zh) * | 2018-12-17 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 文本词向量模型的训练方法、电子设备及计算机存储介质 |
CN110047501A (zh) * | 2019-04-04 | 2019-07-23 | 南京邮电大学 | 基于beta-VAE的多对多语音转换方法 |
CN110110580A (zh) * | 2019-03-12 | 2019-08-09 | 西北大学 | 一种面向Wi-Fi信号的手语孤立词识别网络构建及分类方法 |
CN111583954A (zh) * | 2020-05-12 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种说话人无关单通道语音分离方法 |
-
2020
- 2020-10-16 CN CN202011114475.5A patent/CN112435655B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100217592A1 (en) * | 2008-10-14 | 2010-08-26 | Honda Motor Co., Ltd. | Dialog Prediction Using Lexical and Semantic Features |
CN101819772A (zh) * | 2010-02-09 | 2010-09-01 | 中国船舶重工集团公司第七○九研究所 | 一种基于语音分段的孤立词识别方法 |
US9633655B1 (en) * | 2013-05-23 | 2017-04-25 | Knowles Electronics, Llc | Voice sensing and keyword analysis |
CN109635116A (zh) * | 2018-12-17 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 文本词向量模型的训练方法、电子设备及计算机存储介质 |
CN110110580A (zh) * | 2019-03-12 | 2019-08-09 | 西北大学 | 一种面向Wi-Fi信号的手语孤立词识别网络构建及分类方法 |
CN110047501A (zh) * | 2019-04-04 | 2019-07-23 | 南京邮电大学 | 基于beta-VAE的多对多语音转换方法 |
CN111583954A (zh) * | 2020-05-12 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种说话人无关单通道语音分离方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112435655B (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Deep learning for environmentally robust speech recognition: An overview of recent developments | |
CN108766419B (zh) | 一种基于深度学习的非常态语音区别方法 | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN110600050B (zh) | 基于深度神经网络的麦克风阵列语音增强方法及系统 | |
WO2020177371A1 (zh) | 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质 | |
Cai et al. | Sensor network for the monitoring of ecosystem: Bird species recognition | |
CN106782497B (zh) | 一种基于便携式智能终端的智能语音降噪算法 | |
CN106782504A (zh) | 语音识别方法和装置 | |
CN108899044A (zh) | 语音信号处理方法及装置 | |
CN103377651B (zh) | 语音自动合成装置及方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
TW201248613A (en) | System and method for monaural audio processing based preserving speech information | |
CN105448302B (zh) | 一种环境自适应的语音混响消除方法和系统 | |
CN110383798A (zh) | 声学信号处理装置、声学信号处理方法和免提通话装置 | |
CN115602165B (zh) | 基于金融系统的数字员工智能系统 | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN109831732A (zh) | 基于智能手机的智能啸叫抑制装置和方法 | |
CN112382301A (zh) | 基于轻量级神经网络的含噪语音性别识别方法及系统 | |
Bonet et al. | Speech enhancement for wake-up-word detection in voice assistants | |
CN111667834A (zh) | 一种助听设备及助听方法 | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
Girirajan et al. | Real-Time Speech Enhancement Based on Convolutional Recurrent Neural Network. | |
CN112397090B (zh) | 一种基于fpga的实时声音分类方法及系统 | |
CN117542373A (zh) | 一种非空气传导语音的恢复系统及方法 | |
CN114495909B (zh) | 一种端到端的骨气导语音联合识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |