CN113380232A

CN113380232A - 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质

Info

Publication number: CN113380232A
Application number: CN202110661855.9A
Authority: CN
Inventors: 韩纪庆; 薛嘉宾; 郑贵滨; 郑铁然
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-09-10
Anticipated expiration: 2041-06-15
Also published as: CN113380232B

Abstract

基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质，属于语音识别技术领域。本发明是为了解决现有的基于Softmax注意力机制的语音识别方法解码过程中存在大量预测无关信息而导致严重干扰解码器识别过程的问题。本发明首先首先对原始信号分别进行采样、量化、帧级特征提取、高层声学表示提取、匹配分计算；然后，通过匹配分排序、匹配分阈值计算、注意力得分归一化、瞥向量生成，来获得其每一解码时刻的瞥向量；最后，利用解码器进行识别，并用以训练识别器，得到语音识别模型。本发明通过产生均匀、连续且稀疏的注意力得分向量，以降低瞥向量中预测无关信息占比，进而达到提升识别性能的目的。本发明主要用于语音的识别。

Description

基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质

技术领域

本发明涉及一种端到端语音识别技术，属于语音识别技术领域。

背景技术

随着深度学习的不断发展，端到端语音识别方法被成功应用于手机、平板电脑、智能家居等多种实际领域中，受到越来越多研究者的关注。在众多端到端语音识别技术中，基于注意力机制的编码器解码器模型，由于其兼顾了输入语音序列和识别文本序列的上下文关系，取得了目前最佳性能。该方法采用注意力机制学习输入语音序列与识别文本序列之间的对齐关系，以减少预测无关信息对解码器预测过程的干扰。然而，因其采用Softmax变换函数对注意力得分向量进行归一化，导致生成的瞥向量中包含大量预测无关信息，该信息将严重干扰解码器识别过程，也使得这种方法识别的字错率、词错率相对较高。

发明内容

本发明是为了解决现有的基于Softmax注意力机制的语音识别方法解码过程中存在大量预测无关信息而导致严重干扰解码器识别过程的问题。

基于约束的结构化稀疏注意力机制的端到端语音识别方法，包括以下步骤：

将待识别的语音识别样本分割为多个音频帧，提取对数梅尔谱特征，得到帧级特征矩阵；然后将帧级特征矩输入基于约束的结构化稀疏注意力机制的端到端语音识别模型进行识别；所述的基于约束的结构化稀疏注意力机制的端到端语音识别模型的处理过程包括以下步骤：

编码器网络对的每个帧级特征矩阵中对应帧提取该帧的高层声学表示，以得到对应的高层声学表示矩阵，第i个样本的高层编码矩阵为

其中，T_i为构成该样本的音频帧数目，d为第t个高层声学表示

的维度；编码器网络由多层双向长短时记忆网络组成；

同时利用滑动窗对高层编码表示矩阵进行分割，生成音频帧片段，

对每一个高层声学编码表示矩阵对应的音频帧片段，利用全连接网络预测匹配分，以得到第i个样本在第n个解码时刻每个音频帧片段对应的匹配分向量

进而得到第i个样本在第n个解码时刻的匹配分向量为

利用受限的结构化稀疏变换函数对匹配分向量进行归一化：

(1)、将匹配分向量进行从大到小排序，记第i个样本在第n个解码时刻排序后的匹配分向量为

(2)、利用二分查找法获得匹配分向量所对应的阈值：

首先，初始化阈值最小值

阈值最大值

然后，遍历t＝[1，2，...t_i]，计算τ＝(τ_min+τ_max)/2，

若S＜1则τ_max＝τ，否则τ_min＝τ；

其中

是音频帧片段的分段标记，λ是超参数；其中(·)₊表示对向量中的负数全部置为0；k_i是第i个样本的音频帧片段总数，

为第i个样本中第j个音频帧片段对应的约束注意力得分向量；

直至利用二分查找法得到最终的阈值τ，并将

整合得到向量

(3)、对匹配分向量进行归一化：第i个样本在第n个解码时刻的注意力得分向量为

根据归一化注意力得分向量对高层声学表示矩阵进行加权求和，以得到当前解码时刻的瞥向量，第i个样本在第n个解码时刻的瞥向量为

利用解码器网络对瞥向量进行预测，解码器网络由长短时记忆网络组成；

直至解码器完成生成过程得到识别结果序列。

进一步地，所述的语音识别样本是针原始语音信号进行采样与量化得到的。

进一步地，所述的编码器网络由5层双向长短时记忆网络组成，每层的节点数为320。

进一步地，利用滑动窗对高层编码表示矩阵进行分割生成音频帧片段的过程是滑动窗实现的，所述的滑动窗的窗长和窗移均为3。

进一步地，利用全连接网络预测匹配分过程中所述的全连接网络包含2层，每层包含1024个节点。

进一步地，组成的解码器网络的长短时记忆网络的节点数目为1024。

进一步地，对匹配分向量进行归一化的同时，更新约束注意力得分向量

进一步地，超参数λ设置为0.1。

进一步地，所述的基于约束的结构化稀疏注意力机制的端到端语音识别模型是预先训练好的，训练过程包括以下步骤：

步骤1：对训练集中的原始语音信号分别进行采样与量化，得到语音识别样本；

步骤2：将每一个语音识别样本分割为多个音频帧，并根据预先指定的梅尔频带数，对这些音频帧提取经典的对数梅尔谱特征，以得到帧级特征矩阵；

步骤3：利用编码器网络对每个帧级特征矩阵中对应帧提取该帧的高层声学表示，得到对应的高层声学表示矩阵，第i个样本的高层编码矩阵为

的维度；

利用滑动窗对高层编码表示矩阵进行分割，来生成音频帧片段，其中滑动窗的窗长和窗移均为3；

步骤4：初始化约束注意力得分向量

其中[1，1，...，1]^T，表示全1列向量，k_i是第i个样本的音频帧片段总数，

步骤5：对步骤3中得到的每一个高层声学编码表示矩阵对应的音频帧片段，利用传统的全连接网络预测匹配分，以得到第i个样本在第n个解码时刻每个音频帧片段对应的匹配分向量

进而得到第i个样本在第n个解码时刻的匹配分向量为

步骤6：为获得均匀、连续且稀疏的注意力得分向量，利用受限的结构化稀疏变换函数对步骤5中得到的匹配分向量进行归一化，包括以下步骤：

步骤6.1：将步骤5中得到的匹配分向量进行从大到小排序，记第i个样本在第n个解码时刻排序后的匹配分向量为

步骤6.2：利用二分查找法获得步骤6.1中得到的匹配分向量所对应的阈值：

首先，初始化阈值最小值

阈值最大值

然后，遍历t＝[1，2，...t_i]，计算τ＝(τ_min+τ_max)/2，

若S＜1则τ_max＝τ，否则τ_min＝τ；

直至利用二分查找法得到最终的阈值τ，并将

整合得到向量

步骤6.3：利用步骤6.2中得到的

对步骤5中得到的匹配分向量进行归一化，记第i个样本在第n个解码时刻的注意力得分向量为

同时更新约束注意力得分向量

步骤7：根据步骤6.3中得到的归一化注意力得分向量对步骤3中得到的高层声学表示矩阵进行加权求和，以得到当前解码时刻的瞥向量，记第i个样本在第n个解码时刻的瞥向量为

步骤8：利用解码器网络对步骤7中得到的瞥向量进行预测；

步骤9：重复步骤5至步骤8，直至解码器完成生成过程，以得到识别结果序列；

步骤10：利用训练集中全部语音识别样本，计算经典序列损失，并用其训练模型参数，进而得到训练好的语音识别模型。

一种存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现基于约束的结构化稀疏注意力机制的端到端语音识别方法。

有益效果：

本发明提供一种基于受限的结构化稀疏注意力机制的端到端语音识别方法，其通过产生受限的结构化稀疏注意力得分，以降低注意力机制生成的瞥向量中预测无关信息占比，最终达到提升识别性能的目的，即本发明提供一种受限的结构化稀疏变换函数，通过产生均匀、连续且稀疏的注意力得分向量，以降低瞥向量中预测无关信息占比，进而达到提升识别性能的目的。

利用本发明进行语音识别时，字错率、词错率能够得到有效降低。

附图说明

图1是基于约束的结构化稀疏注意力机制的端到端语音识别方法的示意图；

图2是基于受限的结构化稀疏注意力机制的端到端语音识别方法与相关方法在LibriSpeech数据集上的准确率对比柱状图。

具体实施方式

具体实施方式一：

本实施方式为基于约束的结构化稀疏注意力机制的端到端语音识别方法，如图1所示，在训练阶段，首先，对来自训练集的原始信号分别进行采样、量化、帧级特征提取、高层声学表示提取、匹配分计算；然后，通过匹配分排序、匹配分阈值计算、注意力得分归一化、瞥向量生成，来获得其每一解码时刻的瞥向量；最后，利用解码器进行识别，并用以训练识别器，得到语音识别模型。在测试阶段，首先，对测试集中的每一个原始语音信号进行采样、量化、帧级特征提取；然后，利用训练好的语音识别模型，对特征矩阵进行高层声学表示提取、匹配分计算；接下来，通过匹配分排序、匹配分阈值计算、注意力得分归一化、瞥向量生成，来获得其每一解码时刻的瞥向量；最后，利用训练好的语音识别模型，来得到预测结果。

其具体过程包括以下步骤：

步骤1：对训练集和测试集中的原始语音信号分别进行采样与量化，以得到经上述两个操作处理后的语音识别样本。在一些实施例中，采样率可取16000赫兹，量化位数可为16。

步骤2：将步骤1中得到的每一个语音识别样本分割为多个音频帧，并根据预先指定的梅尔频带数，对这些音频帧提取经典的对数梅尔谱特征，以得到帧级特征矩阵。其中，帧长、帧间交叠、梅尔频带数可分别设置为25毫秒、10毫秒和40。

步骤3：考虑到音频帧往往因持续时长过短，而存在包含语义信息不足的局限性。为此，利用一个编码器网络，对步骤2中得到的每个帧级特征矩阵中对应帧提取该帧的高层声学表示，以得到对应的高层声学表示矩阵，记第i个样本的高层编码矩阵为

的维度。编码器网络由5层双向长短时记忆网络组成，每层的节点数为320。

利用滑动窗对高层编码表示矩阵进行分割，来生成音频帧片段，其中滑动窗的窗长和窗移均为3。

步骤4：

初始化约束注意力得分向量

为第i个样本中第j个音频帧片段对应的约束注意力得分向量。

步骤5：为减少预测无关信息对解码器预测过程的干扰，对步骤3中得到的每一个高层声学编码表示矩阵对应的音频帧片段，利用传统的全连接网络预测匹配分，以得到第i个样本在第n个解码时刻每个音频帧片段对应的匹配分向量

进而得到第i个样本在第n个解码时刻的匹配分向量为

其中，该全连接网络包含2层，每层包含1024个节点。

步骤6.2：利用二分查找法获得步骤6.1中得到的匹配分向量所对应的阈值τ：

首先，初始化阈值最小值

阈值最大值

然后，遍历t＝[1，2，...t_i]，计算τ＝(τ_min+τ_max)/2，

若S＜1则τ_max＝τ，否则τ_min＝τ；

其中

是音频帧片段的分段标记，λ是超参数，这里设置为0.1；其中(·)₊表示对向量中的负数全部置为0；

直至利用二分查找法得到最终的阈值τ，并将

整合得到向量

步骤6.3：利用步骤6.2中得到的

同时更新约束注意力得分向量

步骤8：利用解码器网络对步骤7中得到的瞥向量进行预测，其中解码器网络由一层长短时记忆网络组成，其节点数目为1024。

步骤9：重复步骤5至步骤8，直至解码器完成生成过程，以得到识别结果序列。

步骤10：利用训练集中全部语音识别样本，计算经典序列损失，并用其训练模型参数，进而得到语音识别模型。

步骤11：利用测试集中全部语音识别样本，生成测试集的识别结果，以得到预测结果。

步骤6中的受限的结构化稀疏归一化函数可以通过产生均匀且结构化稀疏的概率分布，来迫使模型关注少量且连续的输入语音帧片段；而且本发明所提出的方法具有闭式解，无需迭代求解算法，因此求解过程高效。

实施例

为了验证本发明的效果，利用实施方式一所述的基于受限的结构化稀疏注意力机制的端到端语音识别方法对对LibriSpeech数据集进行处理，并与相关方法(传统的softmax注意力机制的处理方式)在LibriSpeech数据集的处理效果进行对比，如图2所示的准确率对比柱状图所示，其中CER、WER分别表示字错率、词错率，dev和test分别表示开发过程、测试过程的处理准确率。通过对比本发明提出的方法和基于Softmax变换函数的端到端语音识别方法的准确率，可以验证受限的结构化稀疏注意力机制在字错率、词错率上得到有效降低，效果更加优秀。

具体实施方式二：

本实施方式为一种存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现基于约束的结构化稀疏注意力机制的端到端语音识别方法。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。