CN111681646A

CN111681646A - 端到端架构的通用场景中文普通话语音识别方法

Info

Publication number: CN111681646A
Application number: CN202010690798.2A
Authority: CN
Inventors: 沈宜; 代龙翔; 张家亮; 贾宇
Original assignee: Chengdu 30kaitian Communication Industry Co ltd
Current assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-09-18

Abstract

本发明的端到端架构的通用场景中文普通话语音识别方法是一种综合性的语音识别方法。该方法中，在前端加入了深度模型的语音增强模型针对于强噪音环境和背景音较大的场景的干扰进行过滤掉，在后端使用的是现在流行的端到端语音识别模型，其中分为语音识别声学模型和语音识别语言模型，语音识别声学模型使用的是混合CTC和注意力联合解码方式，具有更精准的解码和更清晰的语义逻辑；语音识别语言模型模型使用的是双向循环神经网络模型，该模型常适用于文本处理，处理上下文密切相关语意。由此本发明的端到端架构的通用场景中文普通话语音识别方法具有较强鲁棒性，具有抗噪音的特性；并且在语音识别完成后能够正确纠错，可以对语音内容进行完整提取。

Description

端到端架构的通用场景中文普通话语音识别方法

技术领域

本发明涉及语音音频识别技术领域，尤其是一种端到端架构的通用场景中文普通话语音识别方法。

背景技术

随着现代多媒体信息的膨胀式爆发，各种各样的新闻、短视频、语音消息都在网络上流行起来。随着手机，新闻客户端，自媒体的普及，这些音视频数据需要越来越多的人和物资进行管理，并将这些数据进行审核处理。人工处理这些数据会带来低效率和较多的物力成本。目前虽然自动语音识别以及普及开来，但目前还没有完全效应用到音频检测和管理上。

从互联网需求来说如何有效地识别出大规模音频内容中的特定内容，成为目前网络信息音频管理亟待解决的十分重要问题。而从技术的方面对于目前语音识别效果来说遇到高背景噪音的情况就会使得语音识别效果变的非常差，急需要对于模型进行鲁棒性增强，模型具有抗噪音的特性。同时现在端到端系统识别的在数据量较少的情况下语音识别效果一般，对数据量需求还是非常大的。在语音识别完成后需要进行处理纠错，目前可以正确纠错的模型较少。在识别完成音频内容后，如何自动提取相关关键的实体信息，对于某些信息是否能提取完整也是一个比较有挑战的问题。

发明内容

本发明所要解决的技术问题是：针对上述存在的问题，提供一种端到端架构的通用场景中文普通话语音识别方法。

本发明采用的技术方案如下：

一种端到端架构的通用场景中文普通话语音识别方法，包括如下步骤：

S1，分别训练语音增强模型和语音识别模型；所述语音识别模型包括语音识别声学模型和语音识别语言模型，其中，所述语音识别声学模型使用的是混合CTC和注意力机制的模型，所述语音识别语言模型使用的是双向循环神经网络模型；

S2，提取整段待测语音，按照语音活性检测方切分成若干固定时长的语音段落，包括无语音段落和有语音段落，并对所有语音段落进行序号标记；同时计算出所有语音段落的信噪比，并通过计算出的信噪比进行判断：将信噪比低于设定阀值的语音段落输入语音增强模型，否则执行步骤S4；

S3，语音增强模型对输入其中的语音段落进行降噪后，执行步骤S4；

S4，对步骤S2中信噪比不低于设定阈值的语音段落，以及步骤S3中进行降噪后的语音段落进行语音预处理，提取每个语音段落的MFCC特征参数；然后将MFCC特征参数输入语音识别模型；

S5，语音识别模型中，先经过语音识别声学模型对MFCC特征参数进行识别，得到词序列token；然后经过语音识别语言模型对词序列token进行解码纠正，得到每个语音段落的语音文本；

S6，按照所有语音段落的序号标记合并每个语音段落的语音文本，得到整段待测语音的整个文本。

进一步的，步骤S1中，训练语音识别声学模型的数据集是中文普通话语音数据集，训练语音识别语言模型的数据集是中文普通话文本数据集，训练语音增强模型的数据集为中文普通话带噪音语音数据集。

进一步的，所述中文普通话录音数据集是指对获取的中文普通话录音进行音频编码一致和采样率一致处理后得到的数据集。

进一步的，所述中文普通话文本数据集的构建方法为，利用中文普通话录音文本建立中文普通话文本数据集：编写脚本自动去除中文普通话录音文本中的非法字符和非中文字符，其中，对于数字文本自动转成对应中文文本。

进一步的，所述中文普通话带噪音语音数据集的构建方法为，利用中文普通话语音数据集建立中文普通话带噪音语音数据集：将中文普通话语音数据集中的中文普通话语音和多种噪音按照两种分贝混合叠加成带噪音语音。

进一步的，步骤S1中训练语音增强模型的方法为：将中文普通话带噪音语音数据集中每句话提取为多个语音帧，通过频域变换、去相位和提取参数后，导入全连接神经网络模型训练得到语音增强模型。

进一步的，步骤S1中训练语音识别声学模型的方法为：将中文普通话语音数据集中的中文普通话语音切分成固定时长的语音段落，并提取每个语音段落的MFCC特征参数，然后将MFCC特征参数经过特征归一化处理计算后输入混合CTC和注意力机制的模型进行训练；其中，模型的目标函数通过多目标学习求解得到，该目标函数由CTC的目标函数和注意力机制的目标函数联合组成，两者之间通过设定的比例分配学习权重，在训练过程中，按照两个目标函数的权重分别进行调优，同时使用同步机制同步学习数据迭代更新，完成训练后得到语音识别声学模型。

进一步的，步骤S1中训练语音识别语言模型的方法为：将中文普通话文本数据集中的中文普通话文本转换成多个词向量，并将词向量导入双向循环神经网络模型，训练达到设定的目标或者训练轮次后，得到语音识别语言模型。

进一步的，所述双向循环神经网络模型是指双向RNN和LSTM模型。

进一步的，步骤S2中，按照语音活性检测方切分成的若干语音段落为2～10秒不等长的语音段落。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明端到端架构的通用场景中文普通话语音识别方法得原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

如图1所示，本实施例提供的一种端到端架构的通用场景中文普通话语音识别方法，包括如下步骤：

1、数据集

步骤S1中，训练语音识别声学模型的数据集是中文普通话语音数据集，训练语音识别语言模型的数据集是中文普通话文本数据集，训练语音增强模型的数据集为中文普通话带噪音语音数据集；

(1)中文普通话语音数据集是指对获取的中文普通话录音进行音频编码一致和采样率一致处理后得到的数据集；音频编码一致处理可以去除语音乱码，校验语音数据编码的可靠性，音频编码一致和采样率一致处理可以便于后续处理。采样率一致处理是指，自动对于非16bits，16khz采样率的语音数据进行降采样率调整，以满足16bits同时16khz采样率的语音数据标准。其中，中文普通话录音是指政治访谈采访类场景的语音数据、新闻对话场景的语音数据，以及其他各种场景的语音数据；

(2)所述中文普通话文本数据集的构建方法为，利用中文普通话录音文本建立中文普通话文本数据集：编写脚本自动去除中文普通话录音文本中的非法字符和非中文字符，其中，对于数字文本自动转成对应中文文本。其中，中文普通话录音文本是指上述中文普通话录音对应的文本数据，即政治访谈采访类场景的语音文本数据、新闻对话场景的语音文本数据，以及其他各种场景的语音文本数据。

(3)所述中文普通话带噪音语音数据集的构建方法为，利用中文普通话语音数据集建立中文普通话带噪音语音数据集：将中文普通话语音数据集中的中文普通话语音和多种噪音按照两种分贝混合叠加成带噪音语音。

2、训练语音增强模型

步骤S1中训练语音增强模型的方法为：将中文普通话带噪音语音数据集中每句话提取为多个语音帧，通过频域变换、去相位和提取参数后，导入全连接神经网络模型训练得到语音增强模型。

3、训练语音识别模型

(1)训练语音识别声学模型

步骤S1中训练语音识别声学模型的方法为：将中文普通话语音数据集中的中文普通话语音切分成固定时长(如25ms)的语音段落，并提取每个语音段落的MFCC特征参数，然后将MFCC特征参数经过特征归一化(CMVN)处理计算后输入混合CTC和注意力机制的模型进行训练；其中，模型的目标函数通过多目标学习求解得到，该目标函数由CTC的目标函数和注意力机制的目标函数联合组成，两者之间通过设定的比例分配学习权重，在训练过程中，按照两个目标函数的权重分别进行调优，同时使用同步机制同步学习数据迭代更新，完成训练后得到语音识别声学模型。

其中，提取MFCC特征参数的过程依次为：分帧、预加重、加窗、STFT、使用梅尔滤波器滤波、幅度谱取对数、幅度谱加入离散余弦变换提取为MFCC特征参数。

(2)训练语音识别语言模型

步骤S1中训练语音识别语言模型的方法为：将中文普通话文本数据集中的中文普通话文本转换成多个词向量，并将词向量导入双向循环神经网络模型，训练达到设定的目标或者训练轮次后，得到语音识别语言模型。所述双向循环神经网络模型是指双向RNN和LSTM模型。

S2，提取整段待测语音，按照语音活性检测方切分成若干语音段落，包括无语音段落和有语音段落，并对所有语音段落进行序号标记；同时计算出所有语音段落的信噪比，并通过计算出的信噪比进行判断：将信噪比低于设定阀值的语音段落输入语音增强模型，否则执行步骤S4；

其中，按照语音活性检测方切分成的若干语音段落为2～10秒不等长的语音段落。

其中，对于所有语音段落进行序号标记的方法，可以是对所有语音段落按语音顺序重命名。

其中，提取MFCC特征参数的过程与步骤S1中一样，依次为：分帧、预加重、加窗、STFT、使用梅尔滤波器滤波、幅度谱取对数、幅度谱加入离散余弦变换提取为MFCC特征参数。

通过上述过程可知，本发明的端到端架构的通用场景中文普通话语音识别方法是一种综合性的语音识别方法。该方法中，在前端加入了深度模型的语音增强模型针对于强噪音环境和背景音较大的场景的干扰进行过滤掉，在后端使用的是现在流行的端到端语音识别模型，其中分为语音识别声学模型和语音识别语言模型，语音识别声学模型使用的是混合CTC和注意力联合解码方式，具有更精准的解码和更清晰的语义逻辑；语音识别语言模型模型使用的是双向循环神经网络模型，该模型常适用于文本处理，处理上下文密切相关语意。由此本发明的端到端架构的通用场景中文普通话语音识别方法具有较强鲁棒性，具有抗噪音的特性；并且在语音识别完成后能够正确纠错，可以对语音内容进行完整提取。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种端到端架构的通用场景中文普通话语音识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的端到端架构的通用场景中文普通话语音识别方法，其特征在于，步骤S1中，训练语音识别声学模型的数据集是中文普通话语音数据集，训练语音识别语言模型的数据集是中文普通话文本数据集，训练语音增强模型的数据集为中文普通话带噪音语音数据集。

3.根据权利要求2所述的端到端架构的通用场景中文普通话语音识别方法，其特征在于，所述中文普通话录音数据集是指对获取的中文普通话录音进行音频编码一致和采样率一致处理后得到的数据集。

4.根据权利要求3所述的端到端架构的通用场景中文普通话语音识别方法，其特征在于，所述中文普通话文本数据集的构建方法为，利用中文普通话录音文本建立中文普通话文本数据集：编写脚本自动去除中文普通话录音文本中的非法字符和非中文字符，其中，对于数字文本自动转成对应中文文本。

5.根据权利要求3所述的端到端架构的通用场景中文普通话语音识别方法，其特征在于，所述中文普通话带噪音语音数据集的构建方法为，利用中文普通话语音数据集建立中文普通话带噪音语音数据集：将中文普通话语音数据集中的中文普通话语音和多种噪音按照两种分贝混合叠加成带噪音语音。

6.根据权利要求2所述的端到端架构的通用场景中文普通话语音识别方法，其特征在于，步骤S1中训练语音增强模型的方法为：将中文普通话带噪音语音数据集中每句话提取为多个语音帧，通过频域变换、去相位和提取参数后，导入全连接神经网络模型训练得到语音增强模型。

7.根据权利要求2所述的端到端架构的通用场景中文普通话语音识别方法，其特征在于，步骤S1中训练语音识别声学模型的方法为：将中文普通话语音数据集中的中文普通话语音切分成固定时长的语音段落，并提取每个语音段落的MFCC特征参数，然后将MFCC特征参数经过特征归一化处理计算后输入混合CTC和注意力机制的模型进行训练；其中，模型的目标函数通过多目标学习求解得到，该目标函数由CTC的目标函数和注意力机制的目标函数联合组成，两者之间通过设定的比例分配学习权重，在训练过程中，按照两个目标函数的权重分别进行调优，同时使用同步机制同步学习数据迭代更新，完成训练后得到语音识别声学模型。

8.根据权利要求2所述的端到端架构的通用场景中文普通话语音识别方法，其特征在于，步骤S1中训练语音识别语言模型的方法为：将中文普通话文本数据集中的中文普通话文本转换成多个词向量，并将词向量导入双向循环神经网络模型，训练达到设定的目标或者训练轮次后，得到语音识别语言模型。

9.根据权利要求1或8所述的端到端架构的通用场景中文普通话语音识别方法，其特征在于，所述双向循环神经网络模型是指双向RNN和LSTM模型。

10.根据权利要求1所述的端到端架构的通用场景中文普通话语音识别方法，其特征在于，步骤S2中，按照语音活性检测方切分成的若干语音段落为2～10秒不等长的语音段落。