CN111968629A

CN111968629A - 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法

Info

Publication number: CN111968629A
Application number: CN202010651174.XA
Authority: CN
Inventors: 胡章芳; 蹇芳; 唐珊珊; 明子平; 姜博文
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-11-20

Abstract

本发明请求保护一种结合Transformer和CNN‑DFSMN‑CTC的中文语音识别方法，该方法包括步骤：S1，将语音信号进行预处理，提取80维的log mel Fbank特征；S2，将提取到的80维Fbank特征用CNN卷积网络进行卷积；S3，将特征输入到DFSMN网络结构中；S4，将CTC loss作为声学模型的损失函数，采用Beam search算法进行预测，使用Adam优化器进行优化；S5，引入强语言模型Transformer迭代训练直至达到最优模型结构；S6，将Transformer和声学模型CNN‑DFSMN‑CTC相结合进行适配，在多数据集上进行验证，最终得到最优识别结果。本发明识别准确率更高，解码速度更快，在多个数据集上验证后字符错误率达到了11.8％，其中在Aidatatang数据集上最好达到了7.8％的字符错误率。

Description

一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法

技术领域

本发明属于语音识别领域，特别是一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法。

背景技术

在语音识别发展领域，研究学者们致力于将语音信息尽量完整准确地转化成文本信息。语音识别的关键在于声学模型和语言模型两部分。在深度学习兴起应用到语音识别领域之前，声学模型已经有了非常成熟的模型体系，并且也有了被成功应用到实际系统中的案例。比如经典的高斯混合模型(Gaussian Mixed Model,GMM)和隐马尔可夫模型(Hidden Markov Model,HMM)等。神经网络和深度学习兴起以后，循环神经网络(RecurrentNeural Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、注意力机制(Attention)等基于深度学习的声学模型和语言模型将此前各项基于传统声学模型和传统语言模型的识别案例错误率降低了一个级别。

在声学模型领域，Zhang,Shiliang等提出了新一代语音识别模型前馈序列记忆神经网络(Feedforward Sequential Memory Networks,FSMN),紧凑前馈序列记忆神经网络(Compact FSMN,CFSMN)以及深度前馈序列记忆神经网络(Deep FSMN,DFSMN)。其中FSMN是在标准的隐含层中使用类firfilter的内存块前馈神经网络，并在语言建模任务上的实验结果表明FSMN可以有效地学习长期历史；CFSMN是在FSMN基础上增加了投影矩阵，在语音识别交换机任务中，所提出的CFSMN结构可以使模型规模缩小60％，学习速度提高7倍以上，而在基于框架级交叉熵准则的训练和基于mini的序列训练方面，该模型仍能显著优于目前流行的双向LSTMs；而DFSMN在CFSMN的基础上增加了跳跃连接(Skip Connection),在中文语音识别任务上达到了85％的识别准确率。在语言模型领域中，A Vaswani等提出了基于注意力机制的新模型Transformer，并在英语数据集上进行了验证，结果显示比Attention模型效果更好；Zhou Shiyu等研究了将音节和音素作为Transformer模型的建模单元，在序列到序列语音识别系统上进行实验验证并得出基于音节的Transformer模型优于基于ci音素的对应模型，且与基于CTC-attention的联合编解码网络的字符错误率不相上下；DongLinhao等在Transformer模型上针对训练速度慢提出改进方法，经WSJ数据集实验验证后得到WER为10.9％,训练速度也得到了明显提升。但是Transformer作为语言模型，在自然语言处理中被大量使用，却没有被应用于语音识别中。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种可获得较高识别率、解码速度更快的基于CNN-DFSMN-CTC为声学模型，Transformer为语言模型的语音识别方法。本发明的技术方案如下：

一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法，其包括以下步骤：

S1，输入语音信号，将语音信号进行预处理，结合低帧率LFR，先对语音信号预加重，再通过一个固定的10ms帧位移的25ms汉明窗口进行分析，并利用80个梅尔滤波器组提取80维的取对数后的梅尔滤波器(Filter banks，Fbank)特征；

S2，将提取到的80维Fbank特征用CNN卷积网络进行卷积；

S3，将特征输入到深度前馈序列记忆神经网络(Deep Feedforward SequentialMemory Networks,DFSMN)网络结构中，该网络结构一共有6层，模型深度为512维；

S4，将联结主义时间分类(Connectionist Temporal Classification,CTC)作为声学模型的损失函数，采用宽度参数设置为10的集束搜索(Beam search)算法进行预测，使用自适应时刻估计(Adaptive Moment Estimation,Adam)优化器进行优化，使得声学模型训练时使模型能达到更优；

S5，引入强语言模型Transformer迭代训练直至达到最优模型结构；

S6，将Transformer和声学模型CNN-DFSMN-CTC(卷积神经网络结合深度前馈序列神经网络及联结主义时间分类)相结合进行适配，在多数据集上进行验证，最终得到最优识别结果。

进一步的，所述步骤S1具体包括：

S11、对语音信号进行预加重处理：

x′[t]＝x[t]-αx[t-1]

其中，x[t]表示音频数据的第t个数，α表示预加重系数，x′[t]表示预加重后的音频数据，α的取值范围是(0.95,0.99)；

S12，对预加重的语音信号分帧加窗，采用10ms的帧移对25ms的语音信号用汉明窗进行分析：

x′[n]＝w[n]x[n]

其中，x[n]是所取窗口(窗长为N)之内的第n个数，w[n]是与之对应的权重；x′[n]表示分帧加窗后的语音信号；

S13，对加窗后的语音信号做离散傅里叶变换，计算方式为：

其中，N表示傅里叶变换的点数，k表示傅里叶变换的第k个频谱，x[n]表示分帧加窗后的语音信号，X[k]表示通过频域转换后的频域信号分量；

S14，提取Fbank特征，首先将一般频率转换成梅尔频率，转换方式为：

该转换由梅尔滤波器组实现完成，具体为将离散傅里叶输出的能量频谱通过三角滤波器组得到梅尔频谱，再将梅尔频谱的能量数值取对数，得到的结果就是梅尔滤波器组Fbank特征。

进一步的，α的值为0.97。

进一步的，所述步骤S2将提取到的80维Fbank特征用CNN卷积网络进行卷积，具体包括：

利用卷积网络CNN对输入的Fbank特征进行卷积，CNN通过控制池化层的尺度来保证不同的输入转换后的维度相同，增加CNN卷积网络层后有利于解决输入和输出的不定长问题。

进一步的，所述步骤S3将特征信息输入到DFSMN结构中，DFSMN的参数公式为：

其中，

表示投影层t时刻l层的特征、V^l表示

向

转换系数，

表示更新后的

为对应的时不变系数，⊙表示为点乘，

表示降维后的投影层特征，

为对应的时不变系数，

表示降维后的投影层特征，

表示为t时刻l+1层的特征，U^l表示

转向

的系数，b^l+1表示第l+1层的参数系数，f表示函数，

表示低层Memory Block与高层Memory Block的连接形式，若将低层的Memory直接添加到高层的Memory Block中，则

进一步的，所述步骤S4增加CTC loss作为声学模型的损失函数,对于一对输入输出(X|Y)来说，CTC的损失函数定义为：

其中，p(z|x)代表给定输入x，输出序列z的概率，S为训练集，给定样本后输出正确label的概率的乘积，再取负对数后通过最小化损失函数，就可以使输出正确的label的概率达到最大；

在对模型进行预测时，采用Beam search算法，该算法步骤为：

(1)使用广度优先策略建立搜索树，在树的每一层，按照启发代价对节点进行排序，然后仅留下预先确定的个数的节点，仅这些节点在下一层次继续扩展，其他节点就被剪掉了。

(2)将初始节点插入到list中；

(3)将给节点出堆，如果该节点是目标节点，则算法结束；否则扩展该节点，取集束宽度的节点入堆。然后到第二步继续循环。算法结束的条件是找到最优解或者堆为空。

经实验验证后，在本系统中将宽度参数设置为10时，该算法性能最优。

进一步的，所述步骤S4对于预测模型的优化器选择，使用Adam优化器，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，Adam经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳，其公式如下：

m_t＝μ*m_t-1+(1-μ)*g_t

其中，m_t，n_t分别是对梯度的一阶矩估计和二阶矩估计；μ表示一阶矩衰减系数，v表示二阶矩衰减系数，g_t表示一阶梯度，

表示二阶梯度，

是对m_t，n_t的校正；根据以上所述构建出完整的CNN-DFSMN-CTC声学模型。

进一步的，所述步骤S5中引入强语言模型Transformer，Transformer包括编码和解码两个模块，编码过程为：

在输入中嵌入具有相同的模型维数的位置编码，位置编码采用不同频率的正弦和余弦函数，表示为：

其中，d_model表示模型的维数，pos是位置，i是维数，位置编码的每一维对应一个正弦信号，波长以几何级数的形式从2π增长到10000·2π；

求解多头自注意力输出，包括以下步骤：

生成查询向量Q、键向量K、值向量V，表示为：

qⁱ＝W^qx_i

kⁱ＝W^kx_i

vⁱ＝W^vx_i

其中，qⁱ表示语句中第i个字的查询向量，kⁱ表示语句中第i个字的键向量，vⁱ表示语句中第i个字的值向量，x_i表示语句中第i个字，W^q、W^k、W^v分别表示q、k、v的权重系数。

利用softmax层计算注意力分数，再计算自注意力，自注意力计算方法为：

接着再计算多头注意力，其计算方法为：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

MultiHead(Q,K,V)＝Concat(head₁,head₂,...,head_n)W^O

其中，d_k表示键向量的维度，MultiHead(Q,K,V)表示多头注意力，Concat()函数表示用于连接两个或多个数组，d_model表示模型的维度，

残差连接以及归一化，防止经过多层前向计算后数据偏差过大，造成梯度问题；连接全连接层，在该层网络中，采取矩阵变换结合relu非线性激活。

进一步的，Transformer的解码过程与编码过程类似，包括以下步骤：

输入包含Q,K,V，且需要嵌入位置编码，K和V来自于编码器，Q来自于上一位置解码器的输出；

输出是对应i位置的输出词的概率分布；

解码器结构与编码器类似，与编码器相比多了一个masked self-attention,解码时对于输入一个一个有序解码，最终得到解码结果。

本发明的优点及有益效果如下：

本发明提供了一种基于CNN-DFSMN-CTC为声学模型，Transformer为语言模型的语音识别方法。在当前语音识别中通常采用强声学模型结合弱语言模型的组合，一般采用N-gram模型作为语言模型。然而该语言模型存在忽略词条语义相似性，参数过大导致计算量太大等问题，从而限制了字符错误率的降低。因此本发明改变了研究方法，引入Transformer模型作为语言模型。Transformer模型作为注意力机制模型之一，常用于自然语言处理中，并在该领域中脱颖而出，在解码速度和识别准确率上都具有优良的性能,但是并没有作为语言模型应用于语音识别中。同时，本发明在声学模型的构建中，结合了CNN网络，DFSMN网络，以及CTC损失函数构成CNN-DFSMN-CTC声学模型，利用集数搜索算法进行预测，Adam优化器进行优化，提高了声学模型的训练速度和识别准确率。最后将声学模型CNN-DFSMN-CTC结合Transformer联合构建语音识别系统,相较于其他语音识别方法，本发明提出的方法识别准确率更高，解码速度更快，在多个数据集上验证后字符错误率达到了11.8％，其中在Aidatatang数据集上最好达到了7.8％的字符错误率。

附图说明

图1是本发明提供优选实施例基于CNN-DFSMN-CTC为声学模型，Transformer为语言模型的语音识别方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1所示，本发明提供了一种基于CNN-DFSMN-CTC为声学模型，Transformer为语言模型的语音识别方法，其特征在于，包括以下步骤：

S1，将语音信号进行预处理，结合低帧率LFR，先对语音信号预加重，再通过一个固定的10ms帧位移的25ms汉明窗口进行分析，并利用80个mel滤波器组提取80维的取对数后的梅尔滤波器(Filter banks，Fbank)特征；

S2，将提取到的80维Fbank特征用CNN卷积网络进行卷积，CNN通过控制池化层的尺度来保证不同的输入转换后的维度相同，有利于解决输入和输出的不定长问题；

S3，将特征输入到深度前馈序列记忆神经网络(Deep Feedforward SequentialMemory Networks,DFSMN)网络结构中，该网络结构一共有6层，模型深度为512维。DFSMN的参数公式为：

其中，

表示投影层t时刻l层的特征、V^l表示

向

转换系数，

表示更新后的

为对应的时不变系数，⊙表示为点乘，

表示降维后的投影层特征，

为对应的时不变系数，

表示降维后的投影层特征，

表示为t时刻l+1层的特征，U^l表示

转向

的系数，b^l+1表示第l+1层的参数系数，f表示函数，

表示低层Memory Block与高层Memory Block的连接形式。若将低层的Memory直接添加到高层的Memory Block中，则

S4，将联结主义时间分类(Connectionist Temporal Classification,CTC)作为声学模型的损失函数，该损失函数有利于loss的收敛，对于一对输入输出(X|Y)来说，CTC的损失函数定义为：

其中，p(z|x)代表给定输入x，输出序列z的概率，S为训练集。给定样本后输出正确label的概率的乘积，再取负对数后通过最小化损失函数，就可以使输出正确的label的概率达到最大。

在对模型进行预测时，采用Beam search算法，并经试验验证后，将宽度参数设置为10时，该算法性能最优。

对于预测模型的优化器选择，使用Adam优化器，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。

其公式如下：

m_t＝μ*m_t-1+(1-μ)*g_t

其中m_t，n_t分别是对梯度的一阶矩估计和二阶矩估计；μ表示一阶矩衰减系数，v表示二阶矩衰减系数，g_t表示一阶梯度，

表示二阶梯度，

是对m_t，n_t的校正。

根据以上所述构建出完整的CNN-DFSMN-CTC声学模型。

S5，引入强语言模型Transformer，Transformer包括编码和解码两个模块，编码过程为：

其中，d_model表示模型的维数，pos是位置，i是维数。位置编码的每一维对应一个正弦信号。波长以几何级数的形式从2π增长到10000·2π；

求解多头自注意力输出。包括以下步骤：

生成查询向量Q、键向量K、值向量V，表示为：

qⁱ＝W^qx_i

kⁱ＝W^kx_i

vⁱ＝W^vx_i

利用softmax层计算注意力分数，再计算自注意力。自注意力计算方法为：

接着再计算多头注意力，其计算方法为：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

MultiHead(Q,K,V)＝Concat(head₁,head₂,...,head_n)W^O

残差连接以及归一化。防止经过多层前向计算后数据偏差过大，造成梯度问题；

连接全连接层。在该层网络中，采取矩阵变换结合relu非线性激活。

Transformer的解码过程与编码过程类似，包括以下步骤：

输出是对应i位置的输出词的概率分布；

解码器结构与编码器类似，与编码器相比多了一个masked self-attention,解码时对于输入一个一个有序解码，最终得到解码结果；

S6，将Transformer和声学模型CNN-DFSMN-CTC相结合进行适配，在多数据集上进行验证，证明了模型结合的可行性以及结合后模型性能的优良性。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法，其特征在于，包括以下步骤：

S1，输入语音信号，将语音信号进行预处理，结合低帧率LFR，先对语音信号预加重，再通过一个固定的10ms帧位移的25ms汉明窗口进行分析，并利用80个梅尔滤波器组提取80维的取对数后的梅尔滤波器Fbank特征；

S2，将提取到的80维Fbank特征用CNN卷积网络进行卷积；

S3，将特征输入到深度前馈序列记忆神经网络DFSMN网络结构中，该网络结构一共有6层，模型深度为512维；

S4，将联结主义时间分类CTC作为声学模型的损失函数，采用宽度参数设置为10的集束搜索Beam search算法进行预测，使用自适应时刻估计Adam优化器进行优化，使得声学模型训练时使模型能达到更优；

S6，将Transformer和声学模型CNN-DFSMN-CTC卷积神经网络结合深度前馈序列神经网络及联结主义时间分类相结合进行适配，在多数据集上进行验证，最终得到最优识别结果。

2.根据权利要求1所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法，其特征在于，所述步骤S1具体包括：

S11、对语音信号进行预加重处理：

x′[t]＝x[t]-αx[t-1]

x′[n]＝w[n]x[n]

其中，x[n]表示所取窗口(窗长为N)之内的第n个数，w[n]表示与之对应的权重，x′[n]表示分帧加窗后的语音信号；

S13，对加窗后的语音信号做离散傅里叶变换，计算方式为：

该转换由梅尔滤波器组实现完成，具体为将离散傅里叶输出的能量频谱通过三角滤波器组得到梅尔频谱，再将梅尔频谱的能量数值取对数，得到的结果就是Fbank特征。

3.根据权利要求2所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法，其特征在于，α的值为0.97。

4.根据权利要求1所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法，其特征在于，所述步骤S2将提取到的80维Fbank特征用CNN卷积网络进行卷积，具体包括：

5.根据权利要求4所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法，其特征在于，所述步骤S3将特征信息输入到DFSMN结构中，DFSMN的参数公式为：

其中，P_t ^l表示投影层t时刻l层的特征、V^l表示

向P_t ^l转换系数，

表示更新后的P_t ^l，

为对应的时不变系数，⊙表示为点乘，

表示降维后的投影层特征，

为对应的时不变系数，

表示降维后的投影层特征，

表示为t时刻l+1层的特征，U^l表示

转向

的系数，b^l+1表示第l+1层的参数系数，f表示函数，

6.根据权利要求5所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法，其特征在于，所述步骤S4增加CTC loss作为声学模型的损失函数,对于一对输入输出(X|Y)来说，CTC的损失函数定义为：

在对模型进行预测时，采用Beam search算法，该算法步骤为：

(2)将初始节点插入到list中；

(3)将给节点出堆，如果该节点是目标节点，则算法结束；否则扩展该节点，取集束宽度的节点入堆。然后到第二步继续循环。算法结束的条件是找到最优解或者堆为空；

7.根据权利要求6所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法，其特征在于，所述步骤S4对于预测模型的优化器选择，使用Adam优化器，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，Adam经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳，其公式如下：

m_t＝μ*m_t-1+(1-μ)*g_t