CN109754790B

CN109754790B - 一种基于混合声学模型的语音识别系统及方法

Info

Publication number: CN109754790B
Application number: CN201711059592.4A
Authority: CN
Inventors: 徐及; 程高峰; 潘接林; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2017-11-01
Filing date: 2017-11-01
Publication date: 2020-11-06
Anticipated expiration: 2037-11-01
Also published as: CN109754790A

Abstract

本发明公开了一种基于混合声学模型的语音识别系统和方法，所述系统包括：信号处理及特征提取模块、发音词典、语言模型和解码器；所述系统还包括：混合声学模型；所述混合声学模型包括：前端的卷积神经网络和后端的时间延迟及长短时记忆混合神经网络；所述卷积神经网络作为一个特征提取模块放置在时间延迟及长短时记忆混合神经网络之前；所述卷积神经网络提取出来的鲁棒性特征和原有的特征进行拼接，一起作为后端时间延迟及长短时记忆混合神经网络的输入特征。本发明的系统基于卷积神经网络对特征的平移变换有更鲁棒的建模能力，能够有效降低模型识别错误率，提升多个任务集上的语音识别性能。

Description

一种基于混合声学模型的语音识别系统及方法

技术领域

本发明属于语音识别领域，具体涉及一种基于混合声学模型的语音识别系统及方法。

背景技术

语言交流是人类最自然的交流方式之一，人类对于计算机语音的研究涵盖了语音编解码、语音识别、语音合成、说话人识别、激活词、语音增强等。在这些领域当中语音识别是当下最热门的研究。早在计算机发明之前，自动语音识别就已经提上了议程，早期的声码器可以认为是语音识别及合成的雏形。经过几十年的研究，语音识别技术已经渗透到我们生活的方方面面，应用范围涵盖了智能家居、智能音箱、车载交互、国家安全等领域。

目前，主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块构成：

信号处理及特征提取模块：该模块的主要任务是从输入信号中提取特征，供声学模型处理；同时，它包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。

声学模型；目前主流的是采用神经网络-隐马尔科夫链(DNN-HMM)混合结构模型，如图1所示。其中神经网络是目前研究的热点。

发音词典；发音词典包含系统所能处理的词汇集，及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。

语言模型；语言模型对系统所针对的语言进行建模。理论上，包括正则语言，上下文无关文法在内的各种语言模型都可以作为语言模型，但目前各种系统普遍采用的还是基于统计的N元文法及其变体。

解码器；解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学模型、语言模型及发音词典，寻找能够以最大概率输出该信号的词串。

声学模型通常为神经网络模型，神经网络是一种以连接权重和节点来模拟人脑中神经元工作的技术，可以视作一种分类器，结构主要包括输入层，隐含层和输出层，相邻层的节点之间有带权重的全连接，输出层的节点数量由目标类别数量所决定，数据从输入层进入网络，经由一系列的权重计算和非线性激活函数，最终到达输出层，得到该数据被分为每一类的概率值。目前主流的神经网络结构有卷积神经网络、回馈神经网络以及前向神经网络。不同的神经网络有不同的表达能力，文献[1](H.Sak,A.Senior,and F.Beaufays,“Long short-term memory based recurrent neural network architectures forlarge vocabulary speech recognition,”CoRR,vol.abs/1402.1128,2014)中的长短时记忆网络对长时间序列有很好的建模能力，文献[2](V.Peddinti,D.Povey,andS.Khudanpur,“A time delay neural network architecture for efficient modelingof long temporal contexts,”in Proceedings of INTERSPEECH,2015.)中的卷积神经网络对输入特征的平移变换能更鲁棒建模，前向神经网络在分类任务上能达到计算量和性能的平衡。在文献[3](V.Peddinti,Y.Wang,D.Povey and S.Khudanpur,"Low latencyacoustic modeling using temporal convolution and LSTMs,"in IEEE SignalProcessing Letters,vol.PP,no.99,pp.1-1.doi:10.1109/LSP.2017.2723507)中，通过将时间延迟网络和长短时记忆网络进行融合得到了一个和双向网络性能一致的单向网络：时间延迟及长短时记忆网络。虽然文献[3]提到的混合模型取得了较好的识别性能。但是时间延迟网络和长短时记忆网络在语音识别的鲁棒性方面不如卷积神经网络。

发明内容

本发明的目的在于克服目前语音识别系统中的时间延迟和长短时记忆混合声学模型存在的上述缺陷，基于卷积神经网络对特征的平移变换有更鲁棒的建模能力，通过在时间延迟和长短时混合模型结构前端加入卷积神经网络，可以有效的降低模型识别错误率，提升多个任务集上的语音识别性能。

为了实现上述目的，本发明提供一种基于混合声学模型的语音识别系统，所述系统包括：信号处理及特征提取模块、发音词典、语言模型和解码器；所述系统还包括：混合声学模型；所述混合声学模型包括：前端的卷积神经网络和后端的时间延迟及长短时记忆混合神经网络；所述卷积神经网络作为一个特征提取模块放置在时间延迟及长短时记忆混合神经网络之前；所述卷积神经网络提取出来的鲁棒性特征和原有的特征进行拼接，一起作为后端时间延迟及长短时记忆混合神经网络的输入特征。

作为上述系统的一种改进，所述卷积神经网络为两层。

一种基于混合声学模型的语音识别方法，所述方法包括：

步骤1)建立训练集，基于训练集训练所述语音识别系统的混合声学模型；

步骤2)提取待识别语音的梅尔频率倒谱系数特征以及说话人特征；

步骤3)利用训练好的声学模型的卷积神经网络对待识别语音的梅尔频率倒谱系数特进行卷积处理；

步骤4)将卷积神经网络输出作为新的特征，和待识别语音的梅尔频率倒谱系数特征以及说话人特征进行拼接，形成混合特征，作为时间延迟及长短时记忆混合神经网络的输入；

步骤5)所述时间延迟和长短时记忆混合神经网络对混合特征进行处理，输出语音的特征的后验概率，用于解码，得到识别出的语音。

作为上述方法的一种改进，在所述步骤4)之前还包括：

对卷积神经网络输出的特征降维到1024维，同时对取待识别语音的梅尔频率倒谱系数特征和说话人特征拼接之后的特征进行整体维度转换，转换到512维。

作为上述方法的一种改进，所述步骤1)具体包括：

步骤101)建立训练集；

所述训练集包括若干条语音、每条语音的梅尔频率倒谱系数特征以及说话人特征；

步骤102)利用卷积神经网络对每条语音的梅尔频率倒谱系数特征进行卷积处理；

步骤103)将卷积神经网络输出作为新的特征，和对应语音的梅尔频率倒谱系数特征以及说话人特征进行拼接，形成混合特征，作为时间延迟及长短时记忆混合神经网络的输入；

步骤104)所述时间延迟和长短时记忆混合神经网络对混合特征进行处理，输出语音的特征的后验概率，用于解码，得到识别出的语音，与原始语音进行比较后，进行前向反馈，最终得到训练好的混合声学模型。

作为上述方法的一种改进，在所述步骤103)之前还包括：

对卷积神经网络输出的特征降维到1024维，同时对梅尔频率倒谱系数特征和说话人特征拼接之后的特征进行整体维度转换到512维。

本发明的优势在于：本发明的系统中的混合声学模型通过在时间延迟和长短时混合神经网络的前端加入卷积神经网络，基于卷积神经网络对特征的平移变换有更鲁棒的建模能力，能够有效降低模型识别错误率，提升多个任务集上的语音识别性能。

附图说明

图1是现有技术的时间延迟和长短时记忆混合声学模型的示意图；

图2是本发明的混合声学模型的示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细的说明。

一种基于混合声学模型的语音识别系统，所述系统包括：信号处理及特征提取模块，混合声学模型，发音词典，语言模型和解码器；

如图2所示，所述混合声学模型包括：卷积神经网络和时间延迟及长短时记忆混合神经网络，其中时间延迟及长短时记忆混合神经网络是基础模型。本发明的模型在声学模型层面把卷积神经网络作为一个特征提取模块放置在基础模型时间延迟及长短时记忆混合神经网络之前。每个时间延迟及长短时记忆混合神经网络的输入端都衔接上前端卷积神经网络。每个卷积神经网络提取出来的鲁棒性特征会和原有的特征进行拼接，一起作为后端时间延迟及长短时记忆混合神经网络的输入特征。优选的，所述卷积神经网络为两层。

基于上述系统，本发明还提供了一种基于混合声学模型的语音识别方法，所述方法包括：

步骤1)建立训练集，基于训练集训练所述语音识别系统的混合声学模型；具体包括：

步骤101)建立训练集；

步骤102)利用两层卷积神经网络对每条语音的梅尔频率倒谱系数特征进行卷积处理；

卷积神经网络在和传统特征进行拼接之前，为了保证各特征拼接后占比合理，对卷积神经网络输出的特征进行了降维，一般情况下会将卷进神经网络的输出的特征降维到1024维，同时也会对梅尔频率倒谱系数特征和说话人特征拼接之后的特征进行整体维度转换，一般情况下会将梅尔频率倒谱系数特征和说话人特征转换到512维。

步骤104)所述时间延迟和长短时记忆混合神经网络对混合特征进行处理，输出语音的特征的后验概率，用于解码，得到识别出的语音，与原始语音进行比较后，进行前向反馈，最终得到训练好的混合声学模型；

步骤3)利用训练好的声学模型的两层卷积神经网络对每条语音的梅尔频率倒谱系数特进行卷积处理；

基于本发明的语音识别系统的合理性和有效性已经在实际系统上得到了验证，结果见表1与表2。其中表1是switchboard(SWBD)测试的结果，SWBD是一个标准的电话交谈语音识别任务；表2是AMI SDM的测试结果，AMI SDM是远讲电话会议任务。可以看出，本发明的方法能够有效降低错误识别率。

实验平台采用显卡Nvidia Tesla K80，核心频率562MHZ，显存2*12GB，主机配备128GB内存，CPU采用Intel(R)Xeon(R)CPU E5-2650v3@2.30GHz。

表1

在SWBD训练集上，基于卷积神经网络前端的时间延迟和长短时记忆混合模型结构(cnn-tdnn-lstm)与时间延迟和长短时记忆混合模型结构(tdnn-lstm)的词错误率(WER)对比。Swbd测试集是Eval2000，Eval2000测试集是测试集全集，是LDC下的电话交谈风格的语音数据。Train_dev测试集是从训练数据中提取的一部分数据，这部分数据和训练数据完全同源，但是不包含在模型训练的训练数据当中。

表2

AMI SDM	参数量	Dev	Eval
				tdnn-lstm	43.4M	36.3％	39.8％
cnn-tdnn-lstm	46.7M	35.2％	38.5％

在AMI SDM训练集上，基于卷积神经网络前端的时间延迟和长短时记忆混合模型结构(cnn-tdnn-lstm)与时间延迟和长短时记忆混合模型结构(tdnn-lstm)的词错误率(WER)对比。Eval和dev集子是两个风格类似的测试集。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于混合声学模型的语音识别方法，基于一种基于混合声学模型的语音识别系统实现，所述系统包括：信号处理及特征提取模块、发音词典、语言模型和解码器；其特征在于，所述系统还包括：混合声学模型；所述混合声学模型包括：前端的卷积神经网络和后端的时间延迟及长短时记忆混合神经网络；所述卷积神经网络作为一个特征提取模块放置在时间延迟及长短时记忆混合神经网络之前；所述卷积神经网络输出的特征和待识别语音的梅尔频率倒谱系数特征进行拼接，一起作为后端时间延迟及长短时记忆混合神经网络的输入特征；所述卷积神经网络为两层；

所述方法包括：

2.根据权利要求1所述的基于混合声学模型的语音识别方法，其特征在于，在所述步骤4)之前还包括：

对卷积神经网络输出的特征降维到1024维，同时对待识别语音的梅尔频率倒谱系数特征和说话人特征拼接之后的特征进行整体维度转换，转换到512维。

3.根据权利要求2所述的基于混合声学模型的语音识别方法，其特征在于，所述步骤1)具体包括：

步骤101)建立训练集；

4.根据权利要求3所述的基于混合声学模型的语音识别方法，其特征在于，在所述步骤103)之前还包括：