CN111009235A

CN111009235A - 一种基于cldnn+ctc声学模型的语音识别方法

Info

Publication number: CN111009235A
Application number: CN201911142173.6A
Authority: CN
Inventors: 柳慧芬; 袁熹
Original assignee: Wuhan Shuixiang Electronic Technology Co ltd
Current assignee: Wuhan Shuixiang Electronic Technology Co ltd
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2020-04-14

Abstract

一种基于CLDNN+CTC声学模型的语音识别方法，所述方法包括：步骤1，获取实时语音信号，对所述语音信号进行特征抽取，获得逐帧的声学特征序列；步骤2，将所述声学特征序列作为CLDNN+CTC声学模型的输入，并输出音素序列；步骤3，建立音素序列转文字序列的解码模型，将所述音素序列作为所述解码模型的输入，并通过所述解码模型输出文字序列。本发明为基于两级端到端(seq2seq)的语音识别方法，包括“语音‑音素序列”的端到端模型以及“音素序列‑文字序列”，区别现有“语音‑文字序列”的端到端模型，两个模型均不需要超大规模的语料训练，且两部分能够优势互补，在一定程度上，语言模型能够弥补在声学模型在噪声环境下的不足。

Description

一种基于CLDNN+CTC声学模型的语音识别方法

技术领域

本发明涉及语音识别领域，具体涉及一种基于CLDNN+CTC声学模型的语音识别方法。

背景技术

语音是人际交互中最常见和有效的方式，一直以来也是人机通信和人机交互研究领域中重要的组成部分。由语音合成、语音识别以及自然语言理解联合构成的人机语音交互技术是世界上公认的高难度且富有挑战性的技术领域。同时，语音识别技术，可以进入工业生产、电子通信、汽车电子、医疗保健、服务教育等各行各业，将引领信息技术革命到一个新的台阶。

语音识别，也称自动语音识别(Automatic Speech Recognition,ASR)。自动语音识别是人机智能交互技术中的关键环节，它所要解决的问题是让计算机能够“听明白”人类的语音，将语音信号中包含的文字信息“剥离”出来。技术相当于给计算机安装上类似于人类的“耳朵”，在“能听会说”的智能计算机系统中扮演着至关重要的角色。语音识别是一个多学科交叉的技术领域，涉及了信号与信息处理、信息论、随机过程，概率论，模式识别、声学处理、语言学、心理学、生理学以及人工智能等多个领域。

语音识别模型是语音识别的另一关键技术，识别模型的优劣直接关系到语音识别的精度。语音识别模型本质上是对信号建立数学模型，常用的语音识别模型有：基于模板匹配技术的动态时间规整(Dynamic Time Warping,DTW)模型、基于非参数模型的矢量量化(Vector Quatization,VQ)方法、基于概率运算的隐马尔可夫(Hidden Markov Model,HMM)模型、基于模拟人脑组织的人工神经网络(ANN)模型和基于统计学习理论的支持向量机(Support Vector Machine,SVM)分类模型及这些模型的组合。

现有方案：

第一种方法是DTW，其方法是在训练阶段，用户将词汇表中的词读一遍，将提取出其中的特征矢量存入模板库，在识别阶段，将输入的语音特征矢量与模板库中的每个模板进行比较，把相似度最高的模板作为识别结果输出。但是语音信号的随机性比较大，同一个人在不同时刻对同一句话中的同一个音也会有不同的时间长度，应用动态时间规划方法很好地解决了语音信号特征参数序列比较时，时长不等的难题。但因其过分依赖语音端点检测的准确程度，没有充分利用语音信号的时序动态特性，不适合非特定人、大词汇量、连续语音识别系统。

第二种方法是VQ方法，其识别过程是首先把词汇表中的每一个单词的维特征矢量进行量化形成一个对应独立的码书，然后把待识别词的特征矢量对各码书进行编码，平均量化失真最小码书所对应的单词就是其识别结果。识别结果不高、识别速度较慢。

第三种是基于HMM，在训练阶段把语音信号作为一个可观察的符号序列组成的随机过程进行建模，即将每一个参考模板用一个数学模型来表示，模型建立好后就可以识别和确认由同一模型所产生的其它序列，在测试阶段，将测试集中待测样本代入所有的参考模型当中，具有最大概率的模型所代表的语音即为识别结果。

第四种是SVM，支持向量机的语音识别方法是把训练集的特征数据通过核函数映射到高维希尔伯特空间，通过学习算法，支持向量机就可以自动寻找那些对分类有较好区分能力的支持向量，确定支持向量机模型，再把测试集数据输入到支持向量机模型中，就可以区分开语音特征数据，输出语音识别结果。

第5种是ANN，方法是把训练集的语音特征参数输入到模型中，通过自组织、自学习训练出模型，把测试集特征参数代入训练好的模型中，输出值即为语音识别结果。目前用于语音识别的神经网络主要有神经网络，典型的有BP神经网络、CNN卷积神经网络和RNN神经网络，和现在的主流的端到端神经网络等。

现有技术概述如下：

发明专利1[专利号：CN201710702440.5]，公开了一种基于深度双向长短时记忆(BiLSTM)递归神经网络(RNN)的声学模型，该模型在BiLSTM网络的全连接部分，使用Maxout神经元替代原来的Sigmoid神经元，同时使用Dropout正则化避免过拟合，提出上下文敏感块的随时间反向传播(CSC-BPTT)算法来训练网络；

发明专利2[专利号：CN201810669327.6]，公开了一种模型预训练和BiLSTM的语音识别方法。对于待处理的语音信号进行预加重、分帧、加窗预处理，提取梅尔倒谱系数及动态差分得到语音特征，构建双向使用maxout函数优化的LSTM结构，进行模型训练；

发明专利3[专利号：CN201811155813.2]，公开了一种基于多路卷积神经网络的语音识别方法，将原始语音进行预处理提，并提取特征矢量序列，构建声学模型，并训练。该声学模型以多路卷积神经网络模型为基础，以CTC作为损失函数；

发明专利4[专利号：CN201811112506.6]，公开了一种基于卷积神经网络的语音识别方法，对于原始语音进行预处理，提取关键特征参数，构建端对端方式的声学模型，并训练。此处声学模型以DCNN网络模型为基础，以联结主义时间分类器CTC作为损失函数；

发明专利5[专利号：CN201811036633.2]，公开了一种语音识别方法和装置。首先提取待处理语音信号的声学特征进行识别得到识别文本，将声学特征和文本输入已训练好的音节对齐模型，得到声学特征对应的音节序列，将此声学特征输入到已训练好的声学置信度模型，得到该序列的声学置信度，用于提升声学置信度判决精度。

发明专利1中公开的专利描述的是一种基于BiLSTM的声学模型的方法，BiLSTM的输出进入选择变换层，进行变化后输送到全连接层，全连接层激活函数采用Maxout激活函数代替，最后softmax输出声学后验概率；核心是利用了BiLSTM的双向时序建模能力结合CSC-BPTT反向传播算法构建的声学模型。由于专利中并未提及该模型训练输入和采用的loss函数，如果没有采用ctc loss，该模型训练数据的准备势必会比较复杂，且后端的语言模型采用的是HMM模型，对长时依赖的语言解码能力稍显不足。

发明专利2中公开的方法专利描述的声学模型与i中类似，都是采用的多层BiLSTM。为了提高模型在噪声环境下的鲁棒性，数据准备时，加上了噪声语料。这种加噪声的策略不具有普适性，不同场景下噪声是不一样的，加噪声来增广数据这种方法不是通用的解决办法；

发明专利3中公开的语音识别方法，以多路卷积神经网络做声学模型，同样的语音数据分别进入同样的三路卷积网络，不能提取更有甄别性的特征，同时让网络结构更为复杂，需要大量的训练数据，容易过拟合；

发明专利4中公开的语音识别技术，以简单DCNN网络模型为基础，端到端输出语音序列，由于采用的是基于cnn的结构，对于语音这种时序特征较强的数据，处理能力有限；同时，整个模型层数只有9层，对于中文大规模词汇量的语音识别，模型拟合能力有限；

发明专利5公布的方法，将语音识别结果的序列和声学特征输入到已经训练好的音节对齐模型，这样的语音声学判决并不可靠，因此添加了声学置信度模型。这种建模的方式涉及三个模型，且三个模型互为依赖，任何一个模型的短板都会牵制其他的模型，导致整体性能急剧下降。该模型结合音节和声学特征来判决该语音是否为该文本，不能从本质上提升识别准确率。

发明内容

为解决上述结束问题，本发明提供一种基于CLDNN+CTC声学模型的语音识别方法，所述方法包括

步骤1，获取实时语音信号，对所述语音信号进行特征抽取，获得逐帧的声学特征序列；

步骤2，将所述声学特征序列作为CLDNN+CTC声学模型的输入，并输出音素序列；

步骤3，建立音素序列转文字序列的解码模型，将所述音素序列作为所述解码模型的输入，并通过所述解码模型输出文字序列。

进一步地，所述方法还包括：步骤1中，在特征抽取前，对获取的语音信号进行VAD检测，用以从语音信号里识别和消除长时间的静音期。

进一步地，步骤1中，通过麦克风获取实时语音信号。

进一步地，步骤1中，对所述语音信号进行特征抽取具体为：对语音信号的MFCC特征进行提取，所述声学特征序列为MFCC特征序列。

进一步地，所述CLDNN+CTC声学模型的输入为MFCC特征序列，并通过CLDNN+CTC声学模型的前向计算，输出音素序列。

进一步地，所述CLDNN+CTC声学模型为多级CLDNN+CTC声学模型，其包括多级CNNlayer、位于多级CNN layer之后的Linear layer、位于Linear layer之后的多级LSTMlayer、位于多级LSTM layer之后的多级DNN layer以及位于多级DNN layer之后的CTCloss，MFCC特征序列通过依次多级CNN layer、Linear layer、多级LSTM layer以及多级DNNlayer的前向计算，最后通过CTC loss输出音素序列。

进一步地，所述方法还包括，步骤2中，在将所述声学特征序列输入CLDNN+CTC声学模型之前，将所述声学特征序列补齐到固定维度。

进一步地，所述解码模型为NMT模型。

进一步地，NMT模型的输入为音素序列，音素序列经所述NMT模型的前向计算，输出文字序列。

进一步地，所述NMT模型包括Encoder、Attention机制和Decoder、NMT模型的输入为音素序列，音素序列依次经过Encoder过程和Attention机制得到Contextvector，最后经过Decoder过程输出文字序列。

本发明具有以下有益效果：

1.本发明提供的一种基于BiLSTM声学模型和NMT解码模型的语音识别方法，为基于两级端到端(seq2seq)的语音识别方法，声学模型部分基于DBiLSTM+CTC，语言模型采用音素序列转文字序列的NMT解码模型。声学模型负责声学模型的建模，输入声学特征序列，输出对应音素序列,是一种“语音-音素序列”的端到端模型，区别现有“语音-文字序列”的端到端模型，这种语音到音素序列的模型训练不需要庞大的语音数据；解码模型负责音素序列到文字序列的建模，两个模型均不需要超大规模的语料训练，且两部分能够优势互补，在一定程度上，语言模型能够弥补在声学模型在噪声环境下的不足。

2.不同于端到端的模型，音素级的声学模型的建模更为精细，配合后端解码模型，可以在保证较高识别率的同时具备抗噪能力；另外，在音素级别上，声学模型和解码模型的建模，都不是很复杂，模型容易训练，收敛；

3.不同与语音到文字序列的端到端模型，本发明为语音转音素序列的模型加音素序列转文字序列的模型，所述模型训练不需要庞大、昂贵的语音数据集，且语言模型的数据获取成本基本为0。

附图说明

图1为本发明实施例提供的一种基于CLDNN+CTC声学模型的语音识别方法示意图；

图2为本发明实施例提供的CLDNN+CTC模型示意图；

图3位本发明实施例提供的NMT模型示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明提供的一种基于CLDNN+CTC声学模型的语音识别方法，所述方法包括

步骤3，建立音素序列转文字序列的解码模型，作为语音模型，将所述音素序列作为所述解码模型的输入，并通过所述解码模型输出文字序列。

本发明公开的技术方案，声学模型部分基于DBiLSTM+CTC，解码模型采用音素序列转文字序列的解码模型；两个模型分别用不同的数据集训练。声学模型负责声学模型的建模，输入声学特征序列，输出对应音素序列,是一种“语音-音素序列”的端到端模型，区别现有“语音-文字序列”的端到端模型；解码模型负责音素序列到文字序列的建模，不同与从语音直接到文字序列的端到端模型，本发明为语音-音素序列的模型加音素序列-文字序列的模型，两个模型训练不需要庞大、昂贵的语音数据集，且语言模型的数据获取成本基本为0。

优选地，所述方法还包括：步骤1中，在特征抽取前，对获取的语音信号进行VAD检测，用以从语音信号里识别和消除长时间的静音期。

优选地，步骤1中，通过麦克风获取实时语音信号。

进一步地，步骤1中，对所述语音信号进行特征抽取具体为：对语音信号的MFCC(Mel Frequency Cepstral Coefficents)特征进行提取，其共14维度，第14维为当前帧的对数能量，所述声学特征序列为MFCC特征序列。

优选地，所述CLDNN+CTC声学模型的输入为MFCC特征序列，并通过CLDNN+CTC声学模型的前向计算，输出音素序列。

如图2所示，所述CLDNN+CTC声学模型为多级CLDNN+CTC声学模型，其包括多级CNNlayer、位于多级CNN layer之后的Linearlayer、位于Linear layer之后的多级LSTMlayer、位于多级LSTM layer之后的多级DNN layer以及位于多级DNN layer之后的CTCloss，MFCC特征序列通过依次多级CNN layer、Linear layer、多级LSTM layer以及多级DNNlayer的前向计算，最后通过CTC loss输出音素序列，其中，训练采用CTC loss。

优选地，所述方法还包括，步骤2中，在将所述声学特征序列输入CLDNN+CTC声学模型之前，将所述声学特征序列补齐到固定维度。

另外，所述接收的音素序列为声学模型的输出序列，该序列可以是不定长序列，也可不需要做补齐操作。

优选地，所述解码模型为NMT模型，NMT模型的输入为音素序列，音素序列经所述NMT模型的前向计算，输出文字序列。

如图3所示，所述NMT模型包括Encoder(编码器)、Attention机制和Decoder(解码器)、NMT模型的输入为音素序列，音素序列依次经过Encoder过程和Attention机制得到Context vector，最后经过Decoder过程输出文字序列。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于CLDNN+CTC声学模型的语音识别方法，其特征在于，所述方法包括

2.根据权利要求1所述的基于CLDNN+CTC声学模型的语音识别方法，其特征在于，所述方法还包括：步骤1中，在特征抽取前，对获取的语音信号进行VAD检测，用以从语音信号里识别和消除长时间的静音期。

3.根据权利要求1所述的基于CLDNN+CTC声学模型的语音识别方法，其特征在于，步骤1中，通过麦克风获取实时语音信号。

4.根据权利要求1所述的CLDNN+CTC声学模型的语音识别方法，其特征在于，步骤1中，对所述语音信号进行特征抽取具体为：对语音信号的MFCC特征进行提取，所述声学特征序列为MFCC特征序列。

5.根据权利要求4所述的CLDNN+CTC声学模型的语音识别方法，其特征在于，所述CLDNN+CTC声学模型的输入为MFCC特征序列，并通过CLDNN+CTC声学模型的前向计算，输出音素序列。

6.根据权利要求1所述的CLDNN+CTC声学模型的语音识别方法，其特征在于，所述CLDNN+CTC声学模型为多级CLDNN+CTC声学模型，其包括多级CNN layer、位于多级CNN layer之后的Linear layer、位于Linear layer之后的多级LSTM layer、位于多级LSTM layer之后的多级DNN layer以及位于多级DNN layer之后的CTC loss，MFCC特征序列通过依次多级CNNlayer、Linear layer、多级LSTM layer以及多级DNN layer的前向计算，最后通过CTC loss输出音素序列。

7.根据权利要求1所述的CLDNN+CTC声学模型的语音识别方法，其特征在于，所述方法还包括，步骤2中，在将所述声学特征序列输入CLDNN+CTC声学模型之前，将所述声学特征序列补齐到固定维度。

8.根据权利要求1所述的CLDNN+CTC声学模型的语音识别方法，其特征在于，所述解码模型为NMT模型。

9.根据权利要求8所述的CLDNN+CTC声学模型的语音识别方法，其特征在于，NMT模型的输入为音素序列，音素序列经所述NMT模型的前向计算，输出文字序列。

10.根据权利要求8所述的CLDNN+CTC声学模型的语音识别方法，其特征在于，所述NMT模型包括Encoder、Attention机制和Decoder，NMT模型的输入为音素序列，音素序列依次经过Encoder过程和Attention机制得到Contextvector，最后经过Decoder过程输出文字序列。