CN112435655A

CN112435655A - 一种孤立词语音识别的数据采集及模型训练方法及装置

Info

Publication number: CN112435655A
Application number: CN202011114475.5A
Authority: CN
Inventors: 徐彧; 毋磊; 续素芬
Original assignee: Beijing Unigroup Tsingteng Microsystems Co Ltd
Current assignee: Beijing Unigroup Tsingteng Microsystems Co Ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-03-02
Anticipated expiration: 2040-10-16
Also published as: CN112435655B

Abstract

本发明公开了一种孤立词语音识别的数据采集及模型训练方法及装置，涉及语音识别技术领域，用以在保证语音识别鲁棒性的前提下，降低孤立词语音样本采集的成本，提高采集效率。该方法包括：分批次的采集孤立词语音，利用第一批次或前几个批次采集“嘈杂环境”孤立词语音和“固定环境”孤立词语音对“Y型”网络进行训练。后续批次只采集“固定环境”孤立词语音，网络训练时只更新语义特征子网络的模型参数（见说明书附图图1）。

Description

一种孤立词语音识别的数据采集及模型训练方法及装置

技术领域

本发明涉及语音处理、语音识别技术领域，特别涉及一种孤立词语音识别的数据采集及模型训练方法及装置。

背景技术

目前，在一些领域（如手机应用、智能家具、工业控制等），可能会涉及设备唤醒、设备状态的按需改变。如果采用按键方式，实现上述功能，则便捷性不强。

采用特定语音对设备进行唤醒、或以语音命令的方式改变设备状态，具有非接触、实时性强的优点，提升了用户的应用体验。

由于应用环境、语音采集设备的差异，语音信号会受到环境噪声、周围人声、信道扭曲等因素的影响。一个成功的语音识别系统必须能应付所有这类声音的变化因素。

为此，在语音样本采集和样本增扩的过程中，需要考虑上述的变化因素，以达到良好的识别效果。例如，不同用户设备的麦克风品牌、型号存在差异，语音识别系统需要识别不同信道扭曲的语音信号。此时，语音样本采集需要针对不同品牌、型号的麦克风进行。

孤立词语音识别系统对比通用的语音识别系统有其独特性：（1）识别短语或孤立词语音；（2）“识别词”的数量有限，一般几个或十几个；（3）“识别词”一般由客户指定，例如某生产儿童玩具的客户，指定“幸运猫”为其毛绒猫玩具的唤醒词。

孤立词语音识别系统的“识别词”与应用的强相关性，“识别词”语音的采集通常是分批次的。即为某客户定制孤立词语音识别系统时，仅采集该客户指定的“识别词”语音。由于客户需要识别的语音是无法预知的，分批次大量采集“识别词”语音的成本十分可观。

在孤立词语音识别系统的应用中，存在应用环境类似，但识别词不同的情况。此时，分批次采集到的不同环境因素的语音样本中存在冗余信息。如果仅采集特定环境因素的语音样本，并据此来训练语音识别模型，识别性能会受到影响。因此，如何更加有效的采集语音样本，采用哪种策略进行语音识别模型训练，保证识别效果的鲁棒性，是有待解决的问题。

发明内容

为解决上述技术问题，本发明的实施例提供一种孤立词语音识别的数据采集及模型训练方法及装置，以达到提升孤立词语音样本的采集效率，增强语音识别鲁棒性的目的，技术方案如下：

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供了分批次孤立词语音数据的采集方法，该方法包括：

针对客户产品的特定应用场景（例如家居环境、工业环境等），第一批次或前几个批次采集的语音样本包含“嘈杂环境”孤立词语音和“固定环境”孤立词语音。此处，“嘈杂环境”孤立词语音是指充分包含环境噪声、信道扭曲、语调、语速等变化因素语音样本。 “固定环境”孤立词语音是指“固定”环境噪声、“固定”信道扭曲、“固定”语调等的语音样本，例如在安静的室内、使用特定类型的麦克风采集的语音样本。后续批次可以只采集“固定环境”孤立词语音。

第二方面，提供了孤立词语音识别网络的训练方法，该方法包括：

针对第一批次或前几个批次采集的孤立词语音样本采用“Y型”网络进行训练，见图1。“Y型”网络有一个输入，即“嘈杂环境”孤立词语音

，它可以是原始语音或语谱图（如MFCC、Fbank等）；两个输出，即语义特征

和语音重建结果

。

“Y型”网络从功能上可以分成两个子网络：（1）正则化语音特征子网络，其网络结构类似与U-net，用于产生消除环境噪声、周围人声、信道扭曲等因素的语音特征，称为正则化语音特征，该特征不作为网络输出；（2）语义特征子网络，用于产生语音信号的语义特征，以实现孤立词语音的识别。

图1和图2中每个长方形（Layer*）代表一个神经元网络的层（例如卷积层、全链接层）或一个残差块，箭头表示信号的流动方向。

“Y型”网络的代价函数分成两部分：（1）分类代价采用交叉熵作为代价函数，即

。其中

，

为语义特征的输出。（2）重建代价采用均方误差作为代价函数，即

。其中

是网络输入，

是语音重建结果。

和

为同一人员、同一孤立词语音的样本，且

为“嘈杂环境”孤立词语音，

为“固定环境”孤立词语音。总的代价函数为

，其中，

和

是0~1间可调系数，用于控制两部分代价函数的比例。

针对后续批次的语音，如果样本采集的方法和第一批次相同，则采用“Y型”网络进行训练。如果仅采集了“固定环境”孤立词语音，则复用“Y型”网络的部分结构，见图2所示，并“冻结”正则化语音特征产生子网络的参数，仅对语义特征产生子网络的模型参数进行更新。此时，网络的输入为“固定环境”孤立词语音

，网络的代价函数仅包含分类部分，即

。

第三方面，提供了一种孤立词语音识别模型的训练装置，该装置包括：

语谱图提取模块，用于获取MFCC、Fbank等语谱图；

正则化语音特征生成模块，用于产生孤立词语音的正则化特征；

语音重建模块，用于重建语音，提供给代价函数生成模块；

语义特征生成模块，用于产生孤立词语音的语义特征；

语义分类模块，用于计算输入语音归类于某个“识别词”的概率；

代价函数生成模块，用于计算分类代价和重建代价；

网络参数“冻结”指示模块，用于确定正则化语音特征生成模块中的模型参数是否可以通过训练更新；

网络参数更新模块，用于更新模型参数。

本发明的实施例提供的一种孤立词语音识别的数据采集及模型训练方法及装置，通过将语音样本分为“嘈杂环境”孤立词语音和“固定环境”孤立词语音两类，利用“Y型”网络进行孤立词语音模型训练，在保证识别鲁棒性的前提下，降低孤立词语音样本采集的成本，提高采集效率。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细说明。

图1 是本发明提供的采用“嘈杂环境”孤立词语音和“固定环境”孤立词语音对整个“Y型”网络进行训练的结构框图。

图2 是本发明提供的采用“固定环境”孤立词语音对语义特征产生子网络进行训练的结构框图。

图3 是本发明实施例提供的一种孤立词语音采集及识别方法的流程图.

图4 是本发明实施例提供的“Y型”网络结构框图。

图5 是本发明实施例提供的孤立词语音识别网络模型训练装置图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明实施例公开了一种孤立词语音识别的数据采集及模型训练方法及装置，包括：采用分批次方式采集语音样本，第一批次或前几个批次采集的语音样本包括“嘈杂环境”孤立词语音和“固定环境”孤立词语音，后续批次可以只采集“固定环境”孤立词语音；将“嘈杂环境”语音信号和“固定环境”语音信号进行分帧，计算Fbank语谱图；利用语谱图对“Y型”网络训练，产生正则化语音特征模型参数和语义特征模型参数；如果仅利用“固定环境”语音信号进行语音识别模型训练时，则“冻结”正则化语音特征产生子网络的参数，仅更新语义特征产生子网络的模型参数。本发明可以在保证孤立词语音识别鲁棒性的前提下，降低孤立词语音样本采集的成本，提高采集效率。

接下来对本发明实施例公开的孤立词语音识别方法进行说明，参见图3，可以包括以下步骤：

步骤S11、采集初始语音样本，所述初始语音样本中包含客户指定的“识别词”语音和其它一些干扰语音。

本实施例中，语音样本分批次进行采集，针对本次客户指定的“识别词”，本批次采集该客户指定的“识别词”语音。为增加语音样本的多样性，本批次可能采集一些干扰语音。

第一批次或前几个批次采集的语音样本包括“嘈杂环境”孤立词语音和“固定环境”孤立词语音，后续批次可以只采集“固定环境”孤立词语音。

步骤S12、计算所述“嘈杂环境”孤立词语音和“固定环境”孤立词语音的语谱图。

对16KHz采样的语音信号进行分帧，帧长32ms，，重叠区域为16ms，计算所述分帧语音信号的Fbank语谱图，Mel尺度三角形滤波器的数量为40。

步骤S13、以“嘈杂环境”孤立词语音的语谱图作为输入，利用“Y型”网络，计算语义特征和语谱图重建结果。

以1.04s语音信号形成的Fbank语谱图作为“Y型”网络的输入，即

的大小为64◊40。本发明实施例中的“Y型”网络，见图4所示。图中5◊5的Conv2指卷积核大小为5◊5的2D卷积层，其步长为2；GAP指全局平均池化层；FC指全链接层；DeCov2指卷积核大小为3◊3的2D反卷积层，其步长为2；3◊3的Conv2指卷积核大小为3◊3的2D卷积层，其步长为1。图中，残差块1-0和1-1的步长为2，其它残差块1-0和1-1的步长为1。

利用所述的“Y型”网络，计算语义特征和语谱图重建结果。

步骤S14、计算所述的“Y型”网络的代价函数。

“Y型”网络的代价函数为

，其中

，

，

为语义特征的输出；

，

和

分别是“嘈杂环境”孤立词语音和“固定环境”孤立词语音的语谱图，两者源自同一人，发同一语音，

是语谱图重建结果；

和

是0~1间可调系数。

步骤S15、根据所述的“Y型”网络的代价函数，更新整个网络的模型参数。

根据“Y型”网络的代价函数的结果，利用梯度下降法更新整个网络的模型参数。

步骤S21、采集初始语音样本，所述初始语音样本中包含“固定环境”下采集的客户指定的“识别词”语音。

当产生正则化语音特征的子网络训练完毕后，后续批次只采集“固定环境”孤立词语音。

步骤S22、计算所述“固定环境”孤立词语音的语谱图。

步骤S23、以“固定环境”孤立词语音的语谱图作为输入，利用局部的“Y型”网络计算语义特征，见图2所示。

步骤S24、计算所述局部的“Y型”网络的代价函数即

。

步骤S25、“冻结”正则化语音特征产生子网络的参数，根据步骤S24的代价函数，更新语义特征产生子网络的模型参数。

本发明实施例还提供了一种孤立词语音识别网络模型训练的装置，如图5所示，孤立词语音识别网络模型训练装置包括：

语谱图提取模块101，用于对语音信号进行分帧，并计算MFCC、Fbank等语音特征；

正则化语音特征生成模块102，用于产生孤立词语音的正则化特征；

语音重建模块103，用于重建语音，提供给代价函数生成模块；

语义特征生成模块104，用于产生孤立词语音的语义特征；

语义分类模块105，用于计算输入语音归类于某个“识别词”的概率；

代价函数生成模块106，用于计算分类代价和重建代价；

网络参数“冻结”指示模块107，用于确定正则化语音特征生成模块中的模型参数是否可以通过训练更新；网络参数更新模块108，用于更新模型参数。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何在本发明揭露的技术范围内的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。