CN111696524B

CN111696524B - 一种叠字语音识别方法及系统

Info

Publication number: CN111696524B
Application number: CN202010315390.7A
Authority: CN
Inventors: 张广学; 肖龙源; 叶志坚; 李稀敏; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2023-02-14
Anticipated expiration: 2040-04-21
Also published as: CN111696524A

Abstract

本发明公开了一种叠字语音识别方法，包括以下步骤：获取待识别语音；提取待识别语音的语音特征，语音特征包括能量衰减特征；将语音特征输入已经训练好的神经网络模型中；神经网络模型判断是否有叠字出现。本发明还公开了一种采用上述方法的叠字语音识别系统。本发明加入了能量衰减特征进行识别，提高叠字的识别率。

Description

一种叠字语音识别方法及系统

技术领域

本发明涉及语音识别技术领域，特别是一种叠字语音识别方法及系统。

背景技术

语音识别技术已应用在生活的方方面面，如会议记录、语言互译、娱乐影音等。然而，对于一些叠字的语音，识别率还有待提高。在语谱图中，有些叠字的发音频域较窄、特征不明显或是辅音发音特征不明显，导致识别过程中会出现多字或是少字现象。

发明内容

本发明为解决上述问题，提供了一种叠字语音识别方法及系统，加入了能量衰减特征进行识别，提高叠字的识别率。

为实现上述目的，本发明采用的技术方案为：

一种叠字语音识别方法，包括以下步骤：

获取待识别语音；

提取所述待识别语音的语音特征，所述语音特征包括能量衰减特征；

将所述语音特征输入已经训练好的神经网络模型中；

所述神经网络模型判断是否有叠字出现。

优选的，提取所述能量衰减特征的方法，包括以下步骤：

提取元音音素的共振峰的频率；

提取所述频率下所述待识别语音的能量衰减曲线，得到能量衰减特征。

优选的，所述能量衰减曲线不包括非元音音素的能量衰减点。

优选的，所述语音特征还包括MFCC特征和I-VECTOR特征。

优选的，所述神经网络模型的构建方法，包括以下步骤：

准备训练语料和所述训练语料对应的文本；

对训练语料的语音进行对齐；

提取所述训练语料的语料语音特征；

将所述语料语音特征输入所述神经网络模型进行训练，直至满足训练结束条件。

优选的，还包括步骤：所述神经网络模型输出识别文本。

优选的，所述神经网络模型为TDNN时延神经网络。

基于同样的发明构思，本发明还提供了一种叠字语音识别系统，包括：

语音输入终端，用于输入所述待识别语音；

识别模块，用于对所述待识别语音的音频数据进行识别，判定待识别语音是否有叠字出现。

本发明的有益效果是：

(1)提高叠字的识别率，减少非叠字的干扰；

(2)去除非元音音素的能量衰减点，加强能量衰减特征的特征性；

(3)使用端到端的网络结构进行识别，直接输出识别文本。

附图说明

图1为本发明一实施例所提供的神经网络模型构建的流程图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合具体实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一

本实施例提供一种叠字语音识别方法，用于识别语音中的叠字。

首先，需要构建一个神经网络模型，基于该模型进行识别，由于进行音素级别的识别，因此本实施例使用TDNN时延神经网络，来降低语音识别的错误率，提高叠字的识别率。

如图1所示，构建TDNN叠字识别模型包括以下步骤：

1.准备训练语料和对应的文本。

2.提取MFCC特征。在本方法中，使用MFCC特征作为识别的语音特征的优点在于：在提取的过程中，对频谱进行平滑化，并消除谐波的作用，可以突显语音的共振峰，识别时可以排除输入的语音的音调的影响。另外，还可以降低神经网络模型的运算量。

3.将训练语料和对应的文本进行对齐。

4.提取能量衰减特征。

具体包括以下步骤：

a.提取叠字的元音音素的共振峰2～3个。元音音素的共振峰携带的能量最高。

b.提取每个共振峰的频率。

c.提取每个频率下语音的能量衰减曲线，相应的为2～3条。

d.去除非元音音素的能量衰减点，可以排除非元音音素的干扰，突显叠字的元音音素在能量衰减上的识别度，提高提取的能量衰减特征的特征性。

e.得到能量衰减特征。本方法加入了能量衰减特征作为识别叠字的语音特征，来提高识别率。

5.提取IVECTOR特征。I-VECTOR特征具有区分性，自适应说话人和环境，可以减少背景音的干扰。

6.组合MFCC+IVECTOR+能量衰减特征。

7.将组合特征输入TDNN进行训练；

8.生成叠字语音识别模型。

然后，使用训练完成的神经网络模型进行语音中叠字的识别，包括以下步骤：

1.获取待识别语音。

2.提取待识别语音的语音特征，语音特征包括MFCC特征、能量衰减特征和I-VECTOR特征。

3.将语音特征输入已经训练好的神经网络模型中。

4.神经网络模型判断是否有叠字出现，直接输出待识别语音对应的识别文本。从该文本中可以得知待识别的语音中是否包含叠字，以及每处叠字的位置和上下文。

本方法可以提高叠字识别的精确度，避免识别的叠字多字或少字、未识别出叠字以及将非叠字识别为叠字的情况。

实施例二

本实施例提供一种叠字语音识别系统，包括：

音频输入终端，用户通过麦克风等组件输入待识别的语音，该终端提取语音特征，包括通过提取语音的共振峰频率，相应地提取能量衰减特征，并将语音特征传输至识别模块。

识别模块，加载有TDNN叠字识别模型，对上述语音特征进行识别，不仅判断语音中是否有叠字出现，而且直接输出语音的识别文本。

本系统使用端到端的网络结构进行识别，识别速度快，可以提高叠字语音的识别率。将本系统应用于手机上的APP或其他智能设备，可以更好地满足用户对语音识别精确性的要求，提高人机交互的智能化水平，使用户更容易通过语音实现设备控制和信息获取。

本领域技术人员可以理解，实现上述音频数据检测方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在1个存储介质中，包括若干指令用以使得1个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种叠字语音识别方法，其特征在于，包括以下步骤：

获取待识别语音；

将所述语音特征输入已经训练好的神经网络模型中；

所述神经网络模型判断是否有叠字出现；

提取所述能量衰减特征的方法，包括以下步骤：提取元音音素的共振峰的频率；提取所述频率下所述待识别语音的能量衰减曲线，得到能量衰减特征；

所述语音特征还包括MFCC特征和I-VECTOR特征；

所述神经网络模型的构建方法，包括以下步骤：准备训练语料和所述训练语料对应的文本；对训练语料的语音进行对齐；提取所述训练语料的语料语音特征；将所述语料语音特征输入所述神经网络模型进行训练，直至满足训练结束条件。

2.根据权利要求1所述的叠字语音识别方法，其特征在于，所述能量衰减曲线不包括非元音音素的能量衰减点。

3.根据权利要求1所述的叠字语音识别方法，其特征在于，还包括步骤：所述神经网络模型输出识别文本。

4.根据权利要求1所述的叠字语音识别方法，其特征在于，所述神经网络模型为TDNN时延神经网络。

5.一种采用如权利要求1～4任一项所述方法的叠字语音识别系统，其特征在于，包括：

语音输入终端，用于输入所述待识别语音；

识别模块，用于提取所述待识别语音的语音特征，所述语音特征包括能量衰减特征；所述语音特征还包括MFCC特征和I-VECTOR特征；将所述语音特征输入已经训练好的神经网络模型中；所述神经网络模型对所述待识别语音的音频数据进行识别，判定待识别语音是否有叠字出现；提取所述能量衰减特征的方法，包括以下步骤：提取元音音素的共振峰的频率；提取所述频率下所述待识别语音的能量衰减曲线，得到能量衰减特征；所述神经网络模型的构建方法，包括以下步骤：准备训练语料和所述训练语料对应的文本；对训练语料的语音进行对齐；提取所述训练语料的语料语音特征；将所述语料语音特征输入所述神经网络模型进行训练，直至满足训练结束条件。