CN110751945A

CN110751945A - 一种端到端的语音识别方法

Info

Publication number: CN110751945A
Application number: CN201910988520.0A
Authority: CN
Inventors: 贾宇; 董弋粲; 沈宜; 卢江波; 张明亮
Original assignee: CHENGDU 30KAITIAN COMMUNICATION INDUSTRY Co Ltd
Current assignee: CHENGDU 30KAITIAN COMMUNICATION INDUSTRY Co Ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-02-04

Abstract

本发明公开了一种端到端的语音识别方法，包括以下步骤：S1：获取若干的语音数据并得到语谱图，构建声学模型和语言模型；S2：利用所述声光模型，训练语音数据得到包含拼音符号的声学模型文件；S3：利用所述语言模型，训练所述包含拼音符号的模型文件得到包含汉字的语言模型文件；S4：输入待识别的语音，利用声学模型文件和语言模型文件对语音进行识别。可以方便的将语音内容直接转化为文字内容，识别可以到达端到端，且流程相对简单，泛化性能和识别准确率较传统算法有极大的提升，有效的提高了识别的效率和准确率，大大促进了人机交互领域的发展。

Description

一种端到端的语音识别方法

技术领域

本发明涉及语音识别、自然语言处理领域，尤其涉及一种端到端的语音识别方法。

背景技术

随着人工智能技术的不断发展，以及一系列新兴技术的不断出现，在语音识别的方法上面，人工智能的技术相比较于传统方法逐渐显露出极大的优势，在语音识别领域取得了较传统算法更好的效果，甚至取得了传统算法无法达到的高度。语音识别长期以来一直是人类难以逾越的一个鸿沟，由于语音环境复杂多变，语音中包含大量噪声，以及涉及到远场语音和近场语音的问题，语音识别一直难以取得较好的效果，在传统的方法中，人类需要对采集到的语音进行大量的人工处理，比如去噪、语音增强等等一系列操作，随后还要对语音进行特征的提取，构造一个巨大的语音内容词典，然后使用人工精心设计的分类和预测算法对语音内容进行推断和预测，这类算法往往都是浅层的分类器，所以大多数都很难达到预期的效果。

发明内容

本发明的目的在于提出一种端到端的语音识别方法，提出了一种基于现代深度学习技术的语音识别方法，可以方便的将语音内容直接转化为文字内容，识别可以到达端到端，且流程相对简单，泛化性能和识别准确率较传统算法有极大的提升，有效的提高了识别的效率和准确率，大大促进了人机交互领域的发展。

进一步地，包括以下步骤：

S1：获取若干的语音数据并得到语谱图，构建声学模型和语言模型；

S2：利用所述声光模型，训练语音数据得到包含拼音符号的声学模型文件；

S3：利用所述语言模型，训练所述包含拼音符号的声学模型文件得到包含汉字的语言模型文件；

S4：输入待识别的语音，利用声学模型文件和语言模型文件对语音进行识别。

进一步地，所述步骤S1：包括如下步骤：

S11：提取语音数据的时域特征、进行语音数据的分帧与加窗和进行傅里叶变换得到语谱图；

S12：采用深度卷积神经网络和CTC算法构建声学模型，采用Transformer构建语言模型。

进一步地，所述S2包括如下步骤：

S21：获取带有标签的语音数据；

S22：采用卷积神经网络与CTC算法，转化语音数据为拼音符号；

S23：深度卷积神经对具有标签的语音数据进行学习，得到包含拼音符号的声学模型文件。

进一步地，所述步骤S23包括：优化和更新卷积神经网络、全连接网络和GRU网络中的权值矩阵参数与偏置矩阵参数。

进一步地，所述步骤S3包括：

S31：载入所述包含拼音符号的声光模型文件；

S32：利用Transformer模型的编码器和解码器得到对应拼音符号的汉字符号；

S33：优化Transformer模型参数，得到包含汉字的语言模型文件。

进一步地，所述步骤S4包括如下步骤：

S41：输入待识别的语音，进行傅里叶变化得到语谱图；

S42：使用声光模型文件识别语音信号的拼音符号；

S43：使用语言模型文件将拼音符号识别为汉字符号。

本发明的有益效果是：本发明可以方便的将语音内容直接转化为文字内容，识别可以到达端到端，且流程相对简单，泛化性能和识别准确率较传统算法有极大的提升，有效的提高了识别的效率和准确率，大大促进了人机交互领域的发展。

附图说明

图1为训练数据基本存储内容和格式；

图2为基于深度学习技术的识别模型训练流程图；

图3为端到端语音识别流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

具体实施例如图1所示，在训练过程中，需要准备大量具有标签的语音数据，如图1所示，数据格式包括一段语音和这段语音对应的汉字和拼音，拼音则包含了五种音调(包括平声)，如图2中所示为声学模型的训练，其中语音文件和对应的拼音用于声学模型的训练，对应的拼音和对应的汉字则用于语言模型的训练；

将语音数据按照一次固定批量数据传入给声学模型中，即深度神经网络与CTC算法，此时输入的是通过傅里叶变换之后的语谱图数据，标签为这段语音语谱图对应的拼音符号，训练过程需要不断的将语音数据输入给声学模型去学习数据所具有的特征，通过优化器不断优化卷积神经网络中成千上百万的参数，让模型具有将语谱图转化为拼音符号的能力。

对语言模型进行训练，模型采用自然语言处理领域经典的Transformer模型，具体过程为：将拼音符号输入给Transformer模型的编码器和解码器，对应的标签为这段拼音对应的汉字符号，同上述原理一致，需要采用优化器让Transformer模型拟合数据包含的特征，优化模型参数，让模型学习数据中包含的内容和位置等信息。

训练完成之后声学模型和语言模型会分别被存储为一个文件，这个文件中包含网络的结构和结构中的通过数据训练好的参数，识别过程中会调用这个文件而不需要再次进行训练。

上述过程完成之后，就可以对语音进行识别，如图3所示，首先加载训练好的两个模型文件，将一段未知内容的语音数据输入，首先进行基本处理即从时域转化为频域中的语谱图，将这个语谱图首先输入给声学模型，模型可以得到一段拼音符号，随后这段未知拼音符号输入给语言模型，通过语言模型的拼音符号则可以得到对应的汉字内容，即为整个语音识别的流程。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种端到端的语音识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种端到端的语音识别方法，其特征在于，所述步骤S1：包括如下步骤：

3.根据权利要求1中所述的一种端到端的语音识别方法，其特征在于，所述S2包括如下步骤：

S21：获取带有标签的语音数据；

4.根据权利要求3中所述的一种端到端的语音识别方法，其特征在于，所述步骤S23包括：优化和更新卷积神经网络、全连接网络和GRU网络中的权值矩阵参数与偏置矩阵参数。

5.根据权利要求1所述的一种端到端的语音识别方法，其特征在于，所述步骤S3包括：

S31：载入所述包含拼音符号的声光模型文件；

6.根据权利要求1所述的一种端到端的语音识别方法，其特征在于，所述步骤S4包括如下步骤：

S41：输入待识别的语音，进行傅里叶变化得到语谱图；

S42：使用声光模型文件识别语音信号的拼音符号；

S43：使用语言模型文件将拼音符号识别为汉字符号。