CN111653267A

CN111653267A - 一种基于时延神经网络的快速语种识别方法

Info

Publication number: CN111653267A
Application number: CN202010245658.4A
Authority: CN
Inventors: 刘俊南; 江海; 王化; 刘文龙
Original assignee: Innomicro Technology Tianjin Co Ltd
Current assignee: Innomicro Technology Tianjin Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-09-11

Abstract

本发明公开了一种基于时延神经网络的快速语种识别方法，步骤1，输入语音信号，对输入的语音信号进行处理，得到固定长度的语音信号帧序列；步骤2、按帧提取语音信号帧序列的底层声学特征；步骤3，将底层声学特征输入Residual TDNN残差块结构中进行计算处理，得到M×64抽象特征；步骤4，进行Attention计算，步骤5，对Attention特征在时间帧维度上应用全局平均池化处理，得到Embedding向量；步骤6，对Embedding向量进行两层DNN提取，得到语种向量；步骤7，将语种向量输入ArcFaceStatic损失函数，将底层声学特征输入到训练好的神经网络，得到所有可识别语种的概率。本发明本发明在短语音上具有较强鲁棒性，因此能够快速准确地识别语种。

Description

一种基于时延神经网络的快速语种识别方法

技术领域

本发明涉及语音识别技术领域，特别涉及一种应用于语种识别的。

背景技术

21世纪以来，伴随着模式识别、人工智能等学科的快速发展，人类发展进入了智能化时代。语音识别作为人机交互领域的关键技术受到了极大的重视并体现出较大的实用价值。按照形式可将语音划分为与字词信息相关、与语段内容相关的语音识别系统、与语段中所蕴含说话人身份相关的说话人识别系统及与语段所属语言种类相关的语种识别系统。

目前，语种识别领域中时长大于10s长语段的识别准确率已经足够好，但复杂的测试环境和测试条件的限制对语种识别技术提出了更高的要求。传统的基于统计模型的全差异空间分析i-vector方法和基于音素语言模型的PRLM方法在短语音识别中无法满足识别性能的要求，基于神经网络模型发展起来的端到端的语种识别系统在当前语种识别领域获得了广泛的应用并有着较好的发展前景。

基于端到端的语种识别系统简化了传统模型的结构，将模型和分类打分部分融为一体，通过网络中参数将各个部分进行连接，使网络的优化更加直接、简便。目前在语种识别领域应用基于神经网络的端到段系统有循环神经网络(Recurrent Neural Network，RNN)及其变体长短时记忆神经网络模型(Long Short Term Memory，LSTM)、时延神经网络模型(Time Delay Neural Network，TDNN)等都取得了极高的准确率。

发明内容

针对现有技术及其存在的缺陷，本发明提出一种基于时延神经网络的快速语种识别方法，以时延神经网络为基础，在短语音上具有鲁棒性的特征提取，实现快速端到端语种识别方法。

本发明的一种基于时延神经网络的快速语种识别方法，该方法包括以下步骤：

步骤1，输入语音信号，对输入的语音信号进行处理，得到固定长度的语音信号帧序列；

步骤2、按帧提取语音信号帧序列的底层声学特征；

步骤3，将底层声学特征输入Residual TDNN残差块结构中进行计算处理，得到M/2×64抽象特征；

步骤4，进行Attention计算，Attention使用MultiHead-attention，Head选择为8，Self-attention的计算过程为：

4-1，选择Query Key Value矩阵；

4--2，计算抽象特征之间的相似度分数Query×Key为M/2×M/2(，通过将Q和每个K进行相似度计算，经过softmax得到归一化权重；

然后，对相似度分数进行归一化处理，得到注意力系数，使用softmax函数并通过计算权重和相应键值value的加权和求得最后的Attention输出特征H；

注意力系数计算公式为：

H＝V(softmax(K^TQ))

其中，i,j为每一帧特征索引，a_ij为第i帧特征对所有其他帧特征权重的索引，其中，i，j表示每一帧特征索引，a_ij表示第i帧特征对所有其他j帧特征的注意力系数，V表示输入特征序列、K^T表示输入特征序列转置、Q表示输入特征序列、h_i表示第i帧输出特征、ν_j表示第i帧输入特征、k_j表示第j帧输入特征、q_i表示第i帧输入特征、M表示特征序列长度；

MultiHead-Attention的计算过程为：

先对Query Key Value进行多个线性变换得到QW_i ^Q、KW_i ^K、VW_i ^V；

然后，对每个QW_i ^Q、KW_i ^K、VW_i ^V进行Self-Attention，操作处理如下：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)w^O

其中，QW_i ^Q、KW_i ^K、VW_i ^V分别表示对Query Key Value的多个变换矩阵，WO表示拼接多个Attention结果后再进行一个线性变换；

得到输出的Attention特征，其特征维度M/2×d，d表示特征维度；

步骤5，对Attention特征在时间帧维度上应用全局平均池化处理，得到Embedding向量；在平均池化层上，拼接两层前馈神经网络；Embedding向量公式如下；

其中，h_i表示Multihead-attention输出的第i帧特征；

步骤6，对Embedding向量进行两层DNN提取，得到语种向量；

步骤7，将语种向量输入ArcFaceStatic损失函数，将底层声学特征输入到训练好的神经网络，得到所有可识别语种的概率。

与现有技术相比，本发明在短语音上具有较强鲁棒性，因此能够快速准确地识别语种。

附图说明

图1为本发明的一种基于时延神经网络的快速语种识别方法整体实现过程示意图；

图2为语音信号FDLP特征提取的具体处理流程示意图；

图3为Residual TDNN残差块结构示意图；

图4为进行Attention计算的具体处理流程示意图；

图5为multihead-attention模块示意图；

图6为时延残差块结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述，下列实施例仅用于解释本发明的发明内容，并不用于限定本发明的保护范围。

如图1-图3所示，为本发明的一种基于时延神经网络的快速语种识别方法整体实现过程示意图，以采用FDLP(频域线性预测系数特征)为例，实现过程具体包括以下步骤：

步骤1，对输入的语音信号进行拼接或剪切处理，得到固定长度的语音信号帧序列，本例中使用1s固定长度，信号的采样频率为8000；设定固定提取窗口帧参数：25ms窗口、10ms帧移；

步骤2，提取语音信号FDLP(频域线性预测系数)特征(也可以使用SFFT特征(短时快速傅立叶变换计算得到的频域幅度))；具体过程如下：

2-1，计算语音信号的离散余弦变换DCT值(Discrete Cosine Tranform)；

2-2，将上述所得的语音信号DCT值乘以第i个Mel滤波器得到第i个子带DCT分量Yⁱ[k]，作为滤波器输出；

其中，C[k]表示频域等价信号，s[n]表示语音信，N表示采样点，k表示频域频率点，k＝0,1...N-1；

Yⁱ[k]＝C[k]·Hⁱ[k]：

其中，Yⁱ[k]表示经过滤波的DCT信号，Hⁱ[k]表示梅尔谱滤波器；

2-3，使用自相关方法计算Yⁱ[k]的线性预测因子，计算这些线性预测因子每个滤波器中语音信号的短时谱；

自相关系数计算公式：

2-4，在固定的时间间隔中计算上述线性预测分析的极点值时间包络信号，这些极点值时间包络信号即对应了时域信号的能量峰值点，通过这种方法能够较好的估计出信号的峰值点，去除对语种识别无用的信息；

每个梅尔滤波器i输出信号的时间包络信号计算公式如下

其中，sⁱ[g]表示时间包络信号，b表示包络极点数量，g表示包络信号点[0,1...G-1](1s信号下G取100)；

2-5，对上述得到的时间包络信号进行平滑能量规整，该步骤中可以使用短时平均幅度(temporal average magnitude，TAM)、时间质心大小(temporal centroidmagnitude，TCM)和时间质心距离(temporal centroid distance，TCD)三种方法，上述三种方法够作为能量规整的方法单独使用，也能够结合使用，在本发明中以TAM为例；

其中，TAMⁱ[p]表示使用TAM计算方法得到的平滑包络信号，W_h表示汉明窗函数，L表示窗口宽度(小于序列长度)，p表示帧号，M表示窗口重叠宽度；

2-6，将得到的TAM能量值，计算倒谱，得到FDLP特征，每一段语音的特征形状为M×F(M为特征帧数，F为特征维度)，FDLP特征的表达式如下：

FDLP＝cosmat·ln{TAM}

其中，i、j分别为TAM的行、列索引，i∈[0,1...I],j∈[0,1...J]；

步骤3，将FDLP特征输入Residual TDNN残差块结构中进行计算处理，如图3所示，为Residual TDNN残差块结构；Residual TDNN残差块的计算处理流程包括：

先对TDNN残差块将F维特征变换为64维的变换特征，这样不同特征可以使用相同结构，例如如果选择81维的FFT特征，经过此变换也得到64维度；

然后，经过20个TDNN残差块(本例使用20个残差块)进行变换，从变换特征中抽取深层特征(残差块内维度都为64维)；

再经过一个TDNN残差块将维度提升为128维，然后经过一个2×2的MaxPool层，得到M×64抽象特征；

步骤4，进行Attention计算：Attention使用MultiHead-attention，Head选择为8(MultiHead-Attention是多个Self-Attention的拼接变换)，如图4所示，为进行Attention计算的具体处理流程示意图；Self-attention的计算过程为：

4-1，选择Query Key Value矩阵，Query Key Value都使用64维抽象特征Mx64(M表示特征序列长度，64是特征维度)(以64维为例)；

4--2，计算抽象特征之间的相似度分数Query×Key为MxM，通过将Q和每个K进行相似度计算，经过softmax得到归一化权重；

然后，对相似度分数进行归一化处理，使用softmax函数并通过计算权重得到注意力系数aij，和相应键值value的加权和求得最后的Attention输出特征H；

Self-attention计算公式为：

H＝V(softmax(K^TQ))

其中，i，j为每一帧特征索引，a_ij为第i帧特征对所有其他j帧特征的注意力系数，V表示输入特征序列、K^T表示输入特征序列转置、Q表示输入特征序列、h_i表示第i帧输出特征、v_j表示第j帧输入特征、k_j表示第j帧输入特征、q_i表示第i帧输入特征、M表示特征序列长度；Query，Key，Value都是输入到attention的特征序列，是相同的.

MultiHead-Attention的计算过程为：

先对Query，Key，Value进行多个线性变换得到QW_i ^Q、KW_i ^K、VW_i ^V；

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

其中，QW_i ^Q、KW_i ^K、VW_i ^V分别表示对Query KeyValue的多个变换矩阵，WO表示拼接多个Attention结果后再进行一个线性变换；

得到输出的Attention特征，其特征维度M×d，d表示特征维度(这里以64为例)；

步骤5，对Attention特征在时间帧维度上应用全局平均池化处理，得到Embedding向量，维度为1×d(这里以64为例)；在平均池化层上，拼接两层前馈神经网络，Embedding向量公式如下；

其中，h_i表示Multihead-attention输出的第i帧特征

步骤6，对Embedding向量进行两层DNN提取，得到语种向量；

步骤7，将语种向量输入ArcFaceStatic损失函数，将底层声学特征输入到训练好的神经网络，得到所有可识别语种的概率：

ArcFace损失函数定义如下：

其中，s表示缩放系数，m表示在正确分类上的额外偏置角度(增加对正确分类的确信度)，L表示一批样本的损失量、i表示第i个样本，y_i表示第i个样本的真实类别、N表示一次批计算的样本数量、θ_yi表示第i个样本到的y_i分类的分类角度、θ_j分别表示第i个样本到其他分类的分类角度。

该函数的原理是将需要识别的语种向量类别映射至球面空间上，而每个语种类别都有一个已经训练好的空间向量，通过Cosine相似度比较得到识别为每个语种的概率。

ArcFaceStatic损失函数的改进是将语种向量调整为one-hot矩阵，10个待识别语种的形式定义如下：

ArcFace需要对每个语种的空间向量进行学习，通过学习扩大语种空间向量间的区分性，而ArcFaceStatic损失函数则是将语种空间向量固定的设置为相互之间距离最远的one-hot空间向量，提升语种空间向量的区分性。

本发明的神经网络结构包括三层，即(1)低层，使用多个时延残差块拼接得到深度特征提取部分；(2)中间层，增加Attention层，在Attention层上增加时间维度上平均池化层，得到语种Embedding向量；(3)高层，拼接两层前馈神经网络，最后使用ArcFaceStatic直接输出为可识别语种概率。该神经网络中，激活函数选择PRELU激活函数，若输入为x_i，则该函数在x_i大于0的部分值为x_i，在x_i小于0部分值为a_ix_i。该神经网络最终模型只有11M，输入系统的语音信号可以短至1s，而且选择的特征在短语音上具有较强鲁棒性，因此能够快速准确的识别语种。

如图6所示，为一个时延残差块结构示意图。该结构包括输入x、Residual TDNN残差块、PRELU激活函数、Residual TDNN残差块，若输入为x_i，则该PRELU激活函数在x_i大于0的部分值为x_i，在x_i小于0部分值为ax_i。a为小于零的权重，i为时延残差块序号。

本发明所采用的深度神经网络利用多个时延残差块提取深度特征，具体操作如下：

使用10到30个时延残差块；TDNN中选择使用3×d卷积核，时间维度上的卷积宽度为3，特征维度卷积宽度为d，直接选择为特征维度；

本系统使用的神经网络最终模型只有11M，输入系统的语音信号可以短至1s。