CN112614485A

CN112614485A - 识别模型构建方法、语音识别方法、电子设备及存储介质

Info

Publication number: CN112614485A
Application number: CN202011601858.5A
Authority: CN
Inventors: 简仁贤; 许曜麒; 林长洲
Original assignee: Emotibot Technologies Ltd
Current assignee: Emotibot Technologies Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-06

Abstract

本发明公开了识别模型构建方法、语音识别方法、电子设备及存储介质，所述识别模型构建方法包括以下步骤：获取口音提取器，所述口音提取器用于提取语音中的口音特征；获取不同口音的普通话语料；利用口音提取器提取所述普通话语料的口音特征；将普通话语料的口音特征和频域特征输入初始识别模型，对该该初始识别模型进行训练，得到识别模型。包括。本发明通过将语音的口音特征加入到语音识别中，对带口音的语音能够具有很高的识别率。

Description

识别模型构建方法、语音识别方法、电子设备及存储介质

技术领域

本发明属于人工智能技术领域，尤其涉及一种识别模型构建方法、语音识别方法、电子设备及存储介质。

背景技术

目前现有的识别模型主要依据的是语音的频域特征，没有考虑到语音的一些口音特征，这使得一些对一些发音不标准的语音识别时，准确率较低。

另外，以中国汉语为例，汉语以方言分为普通话、赣语、闽语、粤语、客家话、吴语、湘语等等，这导致各个地方在讲普通话时都带有各自的口音，这些带口音的普通话，以目前的语音识别技术识别时，准确率不高。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种识别模型构建方法及语音识别方法，通过将语音的口音特征加入到语音识别中，对带口音的语音能够具有很高的识别率。

本发明第一方面公开了一种识别模型构建方法，包括以下步骤：获取口音提取器，所述口音提取器用于提取语音中的口音特征；

获取不同口音的普通话语料；

利用口音提取器提取所述普通话语料的口音特征；

将普通话语料的口音特征和频域特征输入初始识别模型，对所述初始识别模型进行训练，得到识别模型。

上述识别模型构建方法，所述获取口音提取器，包括：

获取不同口音的任意语料；

利用所述任意语料的频域特征对时间延迟神经网络模型进行训练，得到口音提取器。

上述识别模型构建方法，所述对时间延迟神经网络模型进行训练，包括：

步骤a、选择一部分任意语料的频域特征数据输入时间延迟神经网络模型；

步骤b、通过前向传播演算法获取时间延迟神经网络模型的口音特征预测值；

步骤c、判断所述口音特征预测值与口音特征真实值是否达到最小化交叉熵；

若是，则训练结束，输出当前时间延迟神经网络模型，若否，则进入下一步；

步骤d、通过反向传播演算法更新时间延迟神经网络模型的参数；

步骤e、判断时间延迟神经网络模型是否收敛；若是，则训练结束，输出当前时间延迟神经网络模型，若否，则进入下一步；

步骤f、选择下一部分任意语料的频域特征数据输入时间延迟神经网络模型；然后执行步骤b—步骤e。

上述识别模型构建方法，所述任意语料的频域特征包括将所述任意语料的语音经过傅里叶变换，再通过梅尔滤波器产生的梅尔频率倒谱系数特征。

上述识别模型构建方法，所述普通话语料的频域特征包括将所述任意语料的语音经过傅里叶变换，再通过梅尔滤波器产生的梅尔频率倒谱系数特征。

上述识别模型构建方法，所述初始识别模型包括声学模型和语言模型；

所述声学模型，用于根据语料的频域特征和口音特征识别出音素序列；

所述语言模型，用于根据音素序列识别出对应的文字。

上述识别模型构建方法，对所述初始识别模型进行训练，包括：

对所述声学模型和所述语言模型进行训练；

对所述声学模型进行训练包括：采用将普通话语料的口音特征和频域特征输入时间延迟神经网络模型进行训练，训练采用以最小辨识错误为目标。

本发明第二方面公开了一种语音识别方法，包括以下步骤：

提取待识别语音的口音特征和频域特征；

将待识别语音的口音特征和频域特征输入识别模型中，输出语音识别结果，所述识别模型为根据上述识别模型构建方法构建所得。

上述语音识别方法，采用口音提起器提取待识别语音的口音特征，所述口音提取器为经过训练的时间延迟神经网络模型，所述口音特征为口音提取器的倒数第二层的向量值；所述倒数第二层指时间延迟神经网络模型从输出层向输入层数第二层。

本发明第三方面公开了一种电子设备，包括处理器和存储器，所述存储器和所述处理器连接；

所述存储器用于存储程序；

所述处理器调用存储于所述存储器中的程序，以执行上述任一方面或任一方面任一实现方式提供的方法。

本发明第四方面公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被计算机运行时执行上述任一方面或任一方面任一实现方式提供的方法。

本发明与现有技术相比具有以下优点：本发明通过基于口音特征和频域特征训练出识别模型，使该识别模型能够在面对带有口音的语音时可以得到更准确、稳定的识别结果。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明实施例1的方法流程图。

图2为本发明实施例2的方法流程图。

图3为本发明实施例5的模块图。

具体实施方式

实施例1

如图1所示，一种识别模型构建方法，包括以下步骤：

步骤1、获取口音提取器，所述口音提取器用于提取语音中的口音特征；

具体地，所述获取口音提取器通过用不同口音的任意语料的频域特征对时间延迟神经网络模型进行训练得到，训练时包括以下步骤：

步骤f、选择下一部分任意语料的频域特征数据输入时间延迟神经网络模型(Time-Delay Neural Network,TDNN)；然后执行步骤b—步骤e。

需要说明的是，所述任意语料的频域特征为将所述任意语料的语音经过傅里叶变换，再通过梅尔滤波器产生的梅尔频率倒谱系数特征。

所述口音特征为在所述口音提取器中倒数第二层的提取的向量值；所述倒数第二层指时间延迟神经网络模型从输出层向输入层数第二层。

步骤2、获取不同口音的普通话语料；

需要说明的是，所述不同口音的普通话语料指如中国香港人讲普通话、四川人讲普通话、新加坡人讲普通话等等带有口音的普通话语料，具体的，普通话语料包括语音信息和对应的文字信息。

进一步需要说明的是，所述不同口音的任意语料指如中国香港人讲广东话、中国香港人讲普通话、四川人讲普通话、四川人讲四川话等等带有口音的普通话或方言，具体地，任意语料包括语音信息和对应的口音信息，训练出来的口音提取器目的就是为了提取语音的口音特征，比如收到一段语音时，能够判断是广东口音、四川口音还是其他地域的口音。

步骤3、利用口音提取器提取所述普通话语料的口音特征；

具体地，将所述普通话语料的频域特征数据输入口音提取器，通过口音提取器提取出所述普通话语料的口音特征。

需要说明的是，所述普通话语料的频域特征为将所述普通话语料的语音经过傅里叶变换，再通过梅尔滤波器产生的梅尔频率倒谱系数特征。

步骤4、将普通话语料的口音特征和频域特征输入初始识别模型，对所述初始识别模型进行训练，得到识别模型。

具体地，所述初始识别模型包括声学模型和语言模型；

所述声学模型，用于根据语料的频域特征和口音特征识别出音素序列；所述语言模型，用于根据音素序列识别出对应的文字。

进一步需要说明的是，对所述声学模型进行训练包括：采用将普通话语料的口音特征和频域特征输入时间时间延迟神经网络模型(Time-Delay Neural Network,TDNN)进行训练，训练采用以最小辨识错误为目标。

所述语言模型为的N-gram语言模型，训练时以所述声学模型根据普通话语料识别出的音素序列和文字信息输入N-gram语言模型进行训练。

实施例2

如图2所示，一种语音识别方法，包括以下步骤：

步骤1、调取实施例1中所述口音提取器；

步骤2、调取以实施例1中的方法构建的识别模型；

步骤3、提取待识别语音的口音特征和频域特征；具体地，将待识别语音经过傅里叶变换从时域变到频域，再通过梅尔滤波器产生梅尔频率倒谱系数特征，梅尔频率倒谱系数特征为该语音的频域特征；再将频域特征输入到口音提取器中，提取到口音特征；

步骤4、将待识别语音的口音特征和频域特征输入到所述识别模型中，获得语音识别结果；

具体地，首先将口音特征和频域特征输入到训练好的声学模型中，所述声学模型根据口音特征和频域特征识别出音素序列，再将音素序列输入到语言模型中，语言模型识别出最终的文字结果输出。

实施例3

本实施例以一个具体场景对实施例1和实施例2中的构建的识别模型作用效果进行说明。

比如，用户说出“我发一条短信给你”，带有广东口音，因广东口音中“你”和普通话中的“里”发音近似。导致传统的识别模型的识别结果为“我发一条短信给里”，识别结果不理想。

而采用实施例2中的语音识别方法，通过所述口音提取器提取“我发一条短信给你”这个音档的口音特征，再将所述音档的口音特征和频域特征输入到识别模型中获得语音识别结果，辨识结果为“我发一条短信给你”。相比传统语音识别技术，本发明的识别准确率更高。

具体地，当获取到用户的语音“我发一条短信给你”时，执行以下步骤：

步骤1、将语音“我发一条短信给你”经过傅里叶变换从时域变到频域，再通过梅尔滤波器产生梅尔频率倒谱系数特征，梅尔频率倒谱系数特征为语音“我发一条短信给你”的频域特征；

步骤2、将语音“我发一条短信给你”的频域特征输入预先训练好的口音特征提取器中，所述口音特征提取器提取语音“我发一条短信给你”的口音特征；

步骤3、将语音“我发一条短信给你”的频域特征和口音特征输入通过实施例1构建的识别模型；

步骤4、识别模型中的声学模型输出语音“我发一条短信给你”的音素序列，识别模型中的语言模型再根据音素序列识别出对应的文字信息“我发一条短信给你”。

实施例4

一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被计算机运行时，执行如上述实施例1和实施例2的方法。

实施例5

一种电子设备，可以是，但不限于个人电脑(Personal computer， PC)、平板电脑、移动上网设备(Mobile Internet Device,MID)等设备。

其中电子设备100可以包括：处理器110、存储器120

应当注意，图3所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，电子设备100也可以具有其他组件和结构。

处理器110、存储器120以及其他可能出现于电子设备100的组件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，处理器 110、存储器120以及其他可能出现的组件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

存储器120用于存储程序，例如存储有前文出现的识别模型构建方法、口音提取器构建方法或语音识别方法对应的程序。可选的，当存储器120 内存储有识别模型构建方法、口音提取器构建方法或语音识别方法对应的程序时，识别模型构建方法、口音提取器构建方法或语音识别方法对应的程序可以以软件或固件(firmware)的形式存储于存储器120中。

可选的，识别模型构建方法、口音提取器构建方法或语音识别方法对应的程序也可以固化在电子设备100的操作系统(operating system，OS)中。

处理器110用于执行存储器120中存储的可执行模块，可执行模块上具有识别模型构建方法、口音提取器构建方法或语音识别方法对应的程序。当处理器110在接收到执行指令后，可以执行计算机程序，例如执行：识别模型构建方法、口音提取器构建方法或语音识别方法

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法，也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，笔记本电脑,服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器 (ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制，凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化，均仍属于本发明技术方案的保护范围内。

Claims

1.一种识别模型构建方法，其特征在于，包括以下步骤：

获取口音提取器，所述口音提取器用于提取语音中的口音特征；

获取不同口音的普通话语料；

利用口音提取器提取所述普通话语料的口音特征；

2.如权利要求1所述识别模型构建方法，其特征在于，所述获取口音提取器，包括：

获取不同口音的任意语料；

3.如权利要求2所述识别模型构建方法，其特征在于，所述对时间延迟神经网络模型进行训练，包括：

4.如权利要求2或3所述识别模型构建方法，其特征在于，所述任意语料的频域特征包括将所述任意语料的语音经过傅里叶变换，再通过梅尔滤波器产生的梅尔频率倒谱系数特征。

5.如权利要求1所述识别模型构建方法，其特征在于，所述普通话语料的频域特征包括将所述任意语料的语音经过傅里叶变换，再通过梅尔滤波器产生的梅尔频率倒谱系数特征。

6.如权利要求1所述识别模型构建方法，其特征在于，

所述初始识别模型包括声学模型和语言模型；

所述语言模型，用于根据音素序列识别出对应的文字。

7.如权利要求6所述识别模型构建方法，其特征在于，对所述初始识别模型进行训练，包括：

对所述声学模型和所述语言模型进行训练；

8.一种语音识别方法，其特征在于，包括以下步骤：

提取待识别语音的口音特征和频域特征；

将待识别语音的口音特征和频域特征输入识别模型中，输出语音识别结果，所述识别模型为根据权利要求1—6中任一权利要求所述识别模型构建方法构建所得。

9.如权利要求7所述的语音识别方法，其特征在于，采用口音提起器提取待识别语音的口音特征，所述口音提取器为经过训练的时间延迟神经网络模型，所述口音特征为口音提取器的倒数第二层的向量值；所述倒数第二层指时间延迟神经网络模型从输出层向输入层数第二层。

10.一种电子设备，其特征在于，包括处理器和存储器，所述存储器和所述处理器连接；

所述存储器用于存储程序；

所述处理器调用存储于所述存储器中的程序，以执行如权利要求1—8中任一项所述的方法。