CN114863914A

CN114863914A - 构建端到端语音评测模型的深度学习方法

Info

Publication number: CN114863914A
Application number: CN202210750476.1A
Authority: CN
Inventors: 黎天宇; 张句; 王宇光; 关昊天
Original assignee: Huiyan Technology Tianjin Co ltd
Current assignee: Huiyan Technology Tianjin Co ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-08-05

Abstract

本发明涉及采用神经网络模型的深度学习方法，具体为一种构建端到端语音评测模型的深度学习方法。主要步骤包括构建LSTM+CTC的声学模型，对输入的声音讯号提取特征后进行训练，得到对应单词，然后结合语言模型得到对齐结果，用于后续多维度评测反馈和得分的计算。提取fbank特征用来作语音识别系统的输入和训练声学模型，将提取的特征放入声学模型中进行训练，声学模型使用LSTM+CTC的结构，其中LSTM以特征提取模块提取的特征为输入进行训练学习，得到学习后的特征。使用深度学习技术来实现一种端到端的语音评测方法，使评测过程更加方便，评测结果更加准确。

Description

构建端到端语音评测模型的深度学习方法

技术领域

本发明涉及采用神经网络模型的深度学习方法，具体为一种构建端到端语音评测模型的深度学习方法，使用深度学习技术来实现一种端到端的语音评测方法，使评测过程更加方便，评测结果更加准确。

背景技术

近年来，由于深度学习技术、大数据、移动互联网、云计算等技术的发展，人工智能技术获得了快速、跨越式的发展。作为人工智能技术中的重要领域，智能语音交互技术逐渐成熟，成为热门落地的方向之一，引起业界各方的持续广泛关注，行业发展已迅速进入场景应用布局阶段。搭载语音助手的智能产品层出不穷，进一步推动了语音交互技术的发展和应用。与此同时，智能语音产品的测试需求日益凸显。

智能语音测评就是利用计算机自动或半自动地对人的语音进行标准程度的评估和发音缺陷的检测。如何提高系统的稳定性、评测打分的准确性是智能语音评测的关键。传统的语音评测方法是使用GMM-HMM作为声学模型得到音频对应音素，然后通过发音词典来将音素变为单词，经过语言模型来修正得到识别句子，根据该句与目标句进行语音准确率和流畅度的评估，其具体过程如图1所示。

为此我们构建了一个基于深度学习的端到端的语音评测方法，可以直接完成从用户的语音输入到测评结果的输出。使用深度学习技术来替换传统测评方法，由原始数据输入到结果输出，从输入端到输出端，中间的神经网络自成一体，而传统的混合模型每个结构之间相互孤立，需要对每个独立结构单独进行优化，不能保证组合后的模型全局最优。所以本发明方法能完成更高效，更准确的语音评测模型。

发明内容

本发明提出了一种构建端到端语音评测模型的深度学习方法，构建LSTM+CTC的声学模型，对输入的声音讯号提取特征后进行训练，得到对应单词，然后结合语言模型得到对齐结果，用于后续多维度评测反馈和得分的计算。

本发明技术方案为构建端到端语音评测模型的深度学习方法，具体步骤：

步骤一，数据准备：准备训练声学模型所需的音频/文本语料。

步骤二，预处理：对训练的语料进行处理，包括音频的静音切除/删除音频长度和文本长度不匹配的语料等。

步骤三，特征提取：特征提取的过程是针对声学信号的频域进行研究，从中提取与频率相关的特征。本方法提取fbank特征用来作语音识别系统的输入和训练声学模型。

步骤四，训练声学模型：将上一步提取的特征放入声学模型中进行训练，声学模型使用LSTM+CTC的结构，其中LSTM以特征提取模块提取的特征为输入进行训练学习，得到学习后的特征。对于本任务来说，网络提取到音频特征的长度远大于对应文本的字符序列长度，无法直接对齐。所以需要CTC算法来完成音频和文本之间的对齐，得到识别后的单词结果。

步骤五，解码：声学模型得到的识别结果为CTC解码所得到的概率最大的单词，为了考虑整句话所包含的语义信息，我们将声学模型的输出结果结合语言模型进行修正后得到识别的完整句子。

本发明声学模型基于LSTM+CTC结构，其配置如下：

LSTM使用了两层，每个LSTM中有1个隐藏层，每个层有 u个隐藏单元。LSTM的编码结果首先被输入到CTC_Decoder，通过束解码的方式进行解码，得到概率最大的N个候选字符序列Y _cand以及其对应的CTC评分score _etc，最后取评分最高的结果作为声学模型的输出。

进一步，进行语音测评，评测结果是多维度的，包括音素、语调、流利度、断句、完整度等内容；但不同语种下评测维度是不同的，这与语言的特性有关，因此需要针对不同语种单独定制评测的维度。

有益效果

本发明主要使用深度学习技术，针对语音评测任务构建了一个端到端模型。与传统语音评测模型相比，该端到端模型有效避免了级联错误，并简化了模型大小，在评测效果上有显著提升。

1、整个测评模型使用深度学习技术进行端到端的统一建模，端到端模型采用单一目标函数对整个网络进行优化，避免了由于多个模块所造成的级联错误。

2、声学模型由DNN替换GMM，CTC替换HMM，其精度和性能显著提高，测评效果也随之提升。

3、相比于传统方法所构建的模型，基于深度学习的端到端模型使用神经网络构建主体架构，灵活性和拓展性更强，减少了模型所占用的计算资源，可以部署到精度高、时延低的设备上。

附图说明

图1是传统语音评测方法模型框架图；

图2本文方法模型框架图。

具体实施方式

为了验证本发明，我们在自建数据库上进行验证。该数据集中训练集包含音频约6000小时对应文本约450万条。测试集/验证集分别为5000句。训练集用于对声学模型进行训练以及确定参数，输入音频识别为对应文本。验证集用于在训练模型过程中对每个时间段的模型进行评估，测试集用于对最终模型的泛化能力进行评测并进行后续的语音评测得分。整个系统的具体算法流程如图2所示，下面结合附图对本发明做进一步详细地描述。

图2是本发明基于深度学习的端到端语音测评方法模型框架图，主要包含以下几个步骤。

步骤一，数据准备：

收集训练声学模型所需的音频和对应文本，为了保证模型的鲁棒性和泛化性，我们囊括了多个场景的音频语料。包含新闻、家居环境、命令词、日常对话等。同样我们还对音频进行了数据增广，使用约一万条环境噪声与源音频进行混合，增加了音频的多样性。

步骤二，预处理：

1）在开始提取特征前，需把音频首尾端静音切除，降低对后续步骤造成干扰，这一般称作静音抑制（Voice Activity Detection，VAD）；这可以减少音频数据长度，提高识别精准度；

2）去除音频和文本长度不匹配的语料。

步骤三，特征提取：任何自动语音识别系统中的第一步都是提取特征，这意味着需要把音频信号中具有辨识性的成分提取出来，丢弃掉诸如情感其它相关度较低的内容。在时域方面，语音信号的波形描述能力较差，分析的难度很大，而在频域方面，由于人说话时各元音的频率成分相对固定，根据语音信号的频谱图，更容易区分不同的元音，进行语音信号的分析。因此特征提取的过程是针对声学信号的频域进行研究，从中提取与频率相关的特征。

将处理好的音频进行，预加重、分帧、加窗、短时傅里叶变换（STFT）、mel滤波、去均值后得到fbank特征；

步骤四，语音评测模型：

本发明声学模型基于LSTM+CTC结构，其配置如下：

LSTM使用了两层，每个LSTM中有1个隐藏层，每个层有u个隐藏单元。LSTM的编码结果首先被输入到CTC_Decoder，通过束解码的方式进行解码，得到概率最大的N个候选字符序列Y_cand以及其对应的CTC评分score _etc，最后取评分最高的结果作为声学模型的输出。

1）训练声学模型

以特征提取模块提取的特征为输入，放到LSTM网络中进行训练，LSTM整体共四层，维度为128。对于本任务来说，网络提取到音频特征的长度远大于对应文本的字符序列长度，无法直接对齐。

训练后取出LSTM网络的输出层向量放入CTC中进行解码，计算音频对应单词之间的概率。

2）语言模型

语言模型可以将语法和字词知识进行整合，计算字词在句中出现的概率。这能够很好地提高同音（即声学模型打分类似）的情况下，模型的性能。所以我们将声学模型输出最高概率的结果和语言模型所得到的概率结果进行修正后，得到识别后的句子，用于后续的测评。

步骤五，语音评测。

以英文为例，本方法在准确率和流畅度两个指标来进行测评。

1）准确率：从词级别来判断每个单词的整体评分。

将识别结果中每个单词与目标句中的单词进行对比，并根据差异来计算单词之间的编辑距离得分。

2）流畅度：从句级别来判断整句话中，错读、漏读和多读的比例，并评分。

同样使用编辑距离来计算句子的流畅度，计算公式如下：

流畅度=(删除/插入/替换为目标句所需的最少操作次数)÷目标句长

该指标分数越低说明用户语音效果越好。

从上述过程，我们得出如下结论：

1）该模型使用深度学习算法将声学模型和语音评分算法结合，构建了一个端到端的语音评测模型；

2）端到端模型可以直接得到音频对应单词，避免了级联错误；

3）相比于传统方法，本方法所得到的测评模型更小，对设备的内存和算力要求大大减少。

Claims

1.构建端到端语音评测模型的深度学习方法，其特征在于，具体步骤如下：

步骤一，数据准备：准备训练声学模型所需的音频/文本语料；

步骤二，预处理：对训练的语料进行处理；

步骤三，特征提取：提取fbank特征用来作语音识别系统的输入和训练声学模型；

步骤四，训练声学模型：将步骤三提取的特征放入声学模型中进行训练，声学模型使用LSTM+CTC的结构，其中LSTM以特征提取模块提取的特征为输入进行训练学习，得到学习后的特征；

采用 CTC算法来完成音频和文本之间的对齐，得到识别后的单词结果；

步骤五，解码：声学模型得到的识别结果为CTC解码所得到的概率最大的单词，为了考虑整句话所包含的语义信息，我们将声学模型的输出结果结合语言模型进行修正后得到识别的完整句子；

声学模型基于LSTM+CTC结构，配置如下：

LSTM使用两层，每个LSTM中有1个隐藏层，每个层有u个隐藏单元；

LSTM编码结果首先被输入到CTC_Decoder，通过束解码的方式进行解码，得到概率最大的N个候选字符序列Y _cand以及其对应的CTC评分score _etc，最后取评分最高的结果作为声学模型的输出。

2.根据权利要求1所述的构建端到端语音评测模型的深度学习方法，其特征在于，语音测评：评测结果是多维度的，包括音素、语调、流利度、断句、完整度，且与语言的特性有关，针对不同语种单独定制评测的维度，分别计算对应的准确率和流畅度，然后将结果反馈给用户，完成整个测评流程。

3.根据权利要求2所述的构建端到端语音评测模型的深度学习方法，其特征在于，1）准确率：从词级别来判断每个单词的整体评分；

将识别结果中每个单词与目标句中的单词进行对比，并根据差异来计算单词之间的编辑距离得分；

2）流畅度：从句级别来判断整句话中，错读、漏读和多读的比例，并评分；

同样使用编辑距离来计算句子的流畅度，计算公式如下：

流畅度指标分数越低说明用户语音效果越好。