CN112466297A

CN112466297A - 一种基于时域卷积编解码网络的语音识别方法

Info

Publication number: CN112466297A
Application number: CN202011301480.7A
Authority: CN
Inventors: 彭德光; 赵清清; 孙健; 汤斌; 黄攀
Original assignee: Chongqing Megalight Technology Co ltd
Current assignee: Chongqing Megalight Technology Co ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-03-09
Anticipated expiration: 2040-11-19
Also published as: CN112466297B

Abstract

本发明提出一种基于时域卷积编解码网络的语音识别方法，包括：输入音频信息，获取音频特征，其中音频特征包括梅尔频率倒谱系数、线性预测倒谱系数；将所述音频特征输入预先构建的神经网络模型，获取时序特征序列；通过时域卷积网络对所述时序特征序列进行编码和解码操作，得到一组输出序列；根据输出序列中每个元素的输出概率以及所述输出序列与预设标签序列的预设映射规则，获取预测结果；本发明可有效解决语音识别延迟问题。

Description

一种基于时域卷积编解码网络的语音识别方法

技术领域

本发明涉及语音识别领域，尤其涉及一种基于时域卷积编解码网络的语音识别方法。

背景技术

目前语音识别领域主要有传统方法和深度学习方法，传统方法主要使用 GMM-HMM或DNN-HMM等基于HMM的方法对每一帧语音进行建模；基于深度学习的方法使用包括卷积神经网络、循环神经网络在内的深度神经网络对大量语音数据进行建模。现有技术的缺点：传统的基于HMM的方法需要帧级别的标注，标注工作耗费大量时间和人力；深度学习方法中的双向循环网络无法有效解决识别延迟问题。

发明内容

鉴于以上现有技术存在的问题，本发明提出一种基于时域卷积编解码网络的语音识别方法，主要解决现有方法标注费时且识别存在延时的问题。

为了实现上述目的及其他目的，本发明采用的技术方案如下。

一种基于时域卷积编解码网络的语音识别方法，包括：

输入音频信息，获取音频特征，其中音频特征包括梅尔频率倒谱系数、线性预测倒谱系数；

将所述音频特征输入预先构建的神经网络模型，获取时序特征序列；

通过时域卷积网络对所述时序特征序列进行编码和解码操作，得到一组输出序列；

根据输出序列中每个元素的输出概率以及所述输出序列与预设标签序列的预设映射规则，获取预测结果。

可选地，所述神经网络模型包括卷积神经网络模型和递归神经网络模型；输入的所述音频特征预先通过卷积神经网络进行特征提取，在将提取的特征输入循环神经网络获取所述时序特征序列。

可选地，所述卷积神经网络模型至少包括两层带有批量归一化的卷积层，激活函数采用硬双曲正切函数。

可选地，所述递归神经网络包括5到7层网络层，且每层网络层均采用批量归一化。

可选地，根据根据输出序列中每个元素的输出概率以及每个所述元素与标签的预设映射规则构建CTC损失函数；

通过所述CTC损失函数反向传播更新所述时域卷积网络的参数。

可选地，所述时域卷积网络通过Softmax激活函数输出每个时间步输出序列中元素的输出概率。

可选地，根据输出序列中每个元素的输出概率以及所述输出序列与预设标签序列的预设映射规则，获取预测结果，包括：

根据输出序列中某一元素的输出概率与输出该元素之前的所有输出概率的关系获取输出序列中元素的输出概率；

计算所有映射到所述标签序列中某一标签的输出序列的输出概率之和，作为该标签的输出概率；选出输出概率最高的标签作为所述预测结果。

可选地，所述输出序列中某一元素的输出概率与输出该元素之前的所有输出概率的关系表示为：

其中，设输出序列表示为π＝{π₁,π₂,…,π_n}，

表示第t时间步输出π_t的概率，T表示输出为π的时间步。

可选地，标签的输出概率表示为：

其中，l表示标签序列；F^-1(l)表示标签映射到输出序列的映射规则。

可选地，通过预训练的语言模型对所述预测结果进行校正。

如上所述，本发明一种基于时域卷积编解码网络的语音识别方法，具有以下有益效果。

端到端的语音识别，减少繁杂的预处理步骤；时序卷积网络进行二次时序序列建模，可有效缩短识别延迟。

附图说明

图1为本发明一实施例中基于时域卷积编解码网络的语音识别方法的流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，本发明提供一种基于时域卷积神经网络的语音识别方法，包括步骤S01-S04。

在步骤S01中，输入实时音频信息，获取音频特征，其中，音频特征包括梅尔频率倒谱系数、线性预测倒谱系数：

在一实施例中，原始音频可由麦克风设备采集得到，音频文件类型可采用 “.wav”文件类型，格式要求为单声道、16000Hz采样频率、256kbps码率。

由于采集设备的不同，采集的音频格式不一定符合要求，但可以通过相关软件和程序把这些音频格式转换成符合要求的格式。

音频的时域信息比较单一，为了得到较为丰富的信息，将音频从时域变换到频域。在频域中，可以使用梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)、线性预测倒谱系数(Linear Prediction Cepstrum Coefficient，LPCC)等频域特征，这里以MFCC为例。具体步骤如下：

预加重：用一个高通滤波器H(z)＝1-μz^-1对音频信号进行滤波，提升高频信息，其中μ取值范围为0.9-1.0。

分帧：对信号进行平稳化处理。把预加重后的音频信号切分成长度为 20ms-30ms的音频帧，为了避免信号间的变化过大，每帧之间有25％、50％、75％的重复率。

加窗：为避免频谱泄露，在进行频域变换之前，对每帧音频乘上一个窗函数，突出中间时间信息，忽略开始和结束时间段信息。可选地，可采用“汉明窗”。

频域转换：用傅里叶变换将上述加窗后的短时时域信号变换到频域。

梅尔刻度滤波器过滤：使用三角带通滤波器或等高度的梅尔滤波器对频域信号进行滤波，将频域信号进行平滑处理，使其分成几个子带。

离散余弦变换(Discrete Cosine Transformation，DCT)：计算每个滤波器组输出的对数能量，即子带能量，再经DCT变换得到MFCC系数。

其中，f(i)为频域信号，F(u)是DCT变换后的系数，N为原始信号的点数，c(u) 是一个补偿系数，它可使DCT变换矩阵成为正交矩阵。

在步骤S02中，将音频特征输入预先构建的神经网络模型，获取时序特征序列：

在一实施例中，神经网络模型可包括卷积神经网络模型和递归神经网络模型(Recurrent Neural Network，RNN)。其中，卷积神经网络模型采用两层或三层带有批量归一化(Batch Normalization,BN)的卷积神经网络(Convolutional Neural Network，CNN)结构，无池化层，激活函数可采用HardTanh函数(即硬双曲正切函数)。其中，卷积核的数量、尺寸、移动步长、填充方式、填充大小以及池化层的尺寸、移动步长可根据需要设置。

用h^l表示第l个卷积层，h⁰表示输入x，c表示上下文窗口的大小，f表示激活函数。那么，对于第l层，时间步t的第i个激活值为：

在一实施例中，可预先采用不同说话人的音频特征对卷积神经网络模型进行训练，以便于学习不同说话人音频之间的差异性。

在一实施例中，卷积神经网络对输入的音频特征进行逐帧提取，获取提取的抽象特征，该抽象特征为时序序列。进一步地，递归神经网络模型接收卷积神经网络输出的时序序列，进而输出一组时序特征序列。

在一实施例中，递归神经网络使用单向RNN，RNN有5-7层，每一层都使用BN，以提高训练速度和泛化能力。其操作如下：

其中，W和U为权重，f()为激活函数，b^l表示RNN第l层的偏置，

为时间步t对应的第l层输出。

除了标准的RNN，还可以使用LSTM、GRU等经过改进的RNN。

在步骤S03中，通过时域卷积网络对所述时序特征序列进行编码和解码操作，得到一组输出序列：

在一实施例中，时域卷积网络)(TCN)对递归神经网络模型输出的时序特征序列进行编解码操作。

在一实施例中，时域卷积网络包括编码器和解码器，编码器encoder由多层卷积-池化操作组成。

对于l层，首先进行卷积操作，卷积的输出为：

式中，

F_l是第l层卷积核的个数，T_l是相应的时间步；

表示W是第l层中所有卷积核的集合，共有F_l个卷积核，每个卷积核相当于通道数为F_l，空洞大小为d的一维空洞卷积；E^(l-1)是上一层的输出；

是对应卷积核的偏置；f()代表激活函数。

然后对卷积后的结果进行在时间维度上进行最大池化操作，池化窗口的大小为2。第l层卷积-池化操作完成后，再把输出送入下一个卷积-池化层。

在解码器Decoder中，采用相反的操作进行解码。

最后使用Softmax激活函数对每个时间步的预测概率进行输出。

在步骤S04中，根据输出序列中每个元素的输出概率以及所述输出序列与预设标签序列的预设映射规则，获取预测结果。

使用CTC损失函数进行反向传播更新网络中的各个参数；

为了把预测结果和标签进行对齐，使用CTC损失函数。步骤P50输出序列为 π＝{π₁,π₂,…,π_n}，标签序列为l＝{l₁,l₂,…,l_m},m＜n，l与π的映射规则为π＝F(l),

表示第t时刻输出π_t的概率。那么输出序列为π的概率和网络输出概率之间的关系为：

映射到标签的概率为所有能映射到l序列的π序列之和：

在一实施例中，可采用前向后向算法计算映射到标签的概率。

进一步地，可采用现有的语言识别模型对本实施例的预测结果进行推理，以提高语音识别的准确性。

综上所述，本发明一种基于时域卷积编解码网络的语音识别方法，端到端的语音识别，无需繁杂的预处理步骤；使用TCN Encoder-Decoder进行二次序列建模，在不大幅降低准确率的情况下缩短识别延迟，提升用户体验；采用外部的语言模型对声学模型的输出结果进行纠正，提升识别的准确率。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于时域卷积编解码网络的语音识别方法，其特征在于，包括：

2.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法，其特征在于，所述神经网络模型包括卷积神经网络模型和递归神经网络模型；输入的所述音频特征预先通过卷积神经网络进行特征提取，在将提取的特征输入循环神经网络获取所述时序特征序列。

3.根据权利要求2所述的基于时域卷积编解码网络的语音识别方法，其特征在于，所述卷积神经网络模型至少包括两层带有批量归一化的卷积层，激活函数采用硬双曲正切函数。

4.根据权利要求2所述的基于时域卷积编解码网络的语音识别方法，其特征在于，所述递归神经网络包括5到7层网络层，且每层网络层均采用批量归一化。

5.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法，其特征在于，根据根据输出序列中每个元素的输出概率以及每个所述元素与标签的预设映射规则构建CTC损失函数；

6.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法，其特征在于，所述时域卷积网络通过Softmax激活函数输出每个时间步输出序列中元素的输出概率。

7.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法，其特征在于，根据输出序列中每个元素的输出概率以及所述输出序列与预设标签序列的预设映射规则，获取预测结果，包括：

8.根据权利要求7所述的基于时域卷积编解码网络的语音识别方法，其特征在于，所述输出序列中某一元素的输出概率与输出该元素之前的所有输出概率的关系表示为：

其中，设输出序列表示为π＝{π₁,π₂,…,π_n}，

表示第t时间步输出π_t的概率，T表示输出为π的时间步。

9.根据权利要求7所述的基于时域卷积编解码网络的语音识别方法，其特征在于，标签的输出概率表示为：

10.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法，其特征在于，通过预训练的语言模型对所述预测结果进行校正。