CN113628614A

CN113628614A - 一种自组织麦克风语音识别的逐层通道选择方法

Info

Publication number: CN113628614A
Application number: CN202110775871.0A
Authority: CN
Inventors: 张晓雷; 陈俊淇
Original assignee: Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-11-09

Abstract

本发明公开了一种自组织麦克风语音识别的逐层通道选择方法，该方法基于conformer语音识别架构，具体框架如下：(1)采用编码器‑解码器架构，其中编码器基于Conformer框架，解码器基于Transformer框架，并在编码器‑解码器模块中引入多头注意力机制；(2)对于单通道语音识别系统，采用干净语音单独训练；(3)对于多通道语音识别系统，将各个通道语音编码后共享同一个解码器，并训练多层流注意力机制，对通道进行逐层筛选。本发明方法在大规模自组织麦克风阵列下较其他基于流注意力的方法语音识别准确率更高，计算复杂度更低。

Description

一种自组织麦克风语音识别的逐层通道选择方法

技术领域

本发明属于语音识别技术领域，具体涉及一种语音识别的逐层通道选择方法。

背景技术

远距离语音识别是一个极具挑战性的问题。基于麦克风阵列的多通道语音识别是提升性能的一种重要方法。然而，当说话人与麦克风阵列的距离增大时，语音的质量会急剧下降，导致无论阵列上加入多少通道，自动语音识别(Automatic Speech Recognition,ASR)的性能都会存在一个物理上界。自组织麦克风阵列是解决上述问题的一个方法，其包含一系列麦克风节点随机散布在声场中，麦克风节点可以是一个麦克风或一个麦克风阵列。利用通道权重分配和通道选择，可以自动将说话人周围的麦克风组织为一个局部阵列，从而减少远距离场景出现的可能性。目前已有的通道选择和权重分配标准可以分为两种：(1)基于信号层面的标准，如信噪比等；(2)基于识别层面的标准，如词错误率(WER)等。

第一种通道选择机制是设计与语音识别系统独立的估计器，其根据每个通道的估计语音质量进行通道选择，如信噪比、距离、方向、包络方差和房间脉冲响应。在通道选择后，或通过自适应波束形成将所选的多个通道融合到一个通道，或直接选择一个最佳通道输入到ASR系统中。虽然基于语音质量的估计在大多数情况下与ASR性能强相关，但优化语音质量并不代表能得到最优的ASR性能。

第二种方法基于优化ASR性能来设计通道选择和通道融合。较早的方法考虑选择ASR解码后输出似然概率最大的通道。由于基于注意力机制的编码器-解码器这种新领域结构出现，通道选择任务可以在ASR系统内部进行。有研究者设计了一个带有多层注意力机制的多通道编码器结构，多层注意力的第一层用于对每个通道的输入进行时间对齐，然后经过称为"流注意力"的第二层注意力，对所有通道的输出进行权重分配和融合。基于上述方法，有研究者设计了一个两阶段的训练方法，第一阶段训练一个单通道的编码器，然后将参数分享到所有通道的编码器上并固定；第二阶段用多通道数据微调流注意力。这种训练方法使得该结构能泛化到任意数量的通道上。然而，上述方法只考虑了少量自组织节点的通道权重分配(不超过10个麦克风节点)，并且没有探究通道选择的问题。当声场环境变大和变复杂，同时自组织节点变多时，一方面由于某些通道受噪声影响极大，需要丢弃某些对性能没有帮助的通道，另一方面由于通道数的增多，会导致网络计算量增大，因此需要探究降低计算复杂的的通道选择方法。

发明内容

为了克服现有技术的不足，本发明提供了一种自组织麦克风语音识别的逐层通道选择方法，该方法基于conformer语音识别架构，具体框架如下：(1)采用编码器-解码器架构，其中编码器基于Conformer框架，解码器基于Transformer框架，并在编码器-解码器模块中引入多头注意力机制；(2)对于单通道语音识别系统，采用干净语音单独训练；(3)对于多通道语音识别系统，将各个通道语音编码后共享同一个解码器，并训练多层流注意力机制，对通道进行逐层筛选。本发明方法在大规模自组织麦克风阵列下较其他基于流注意力的方法语音识别准确率更高，计算复杂度更低。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：构建基于多头注意力机制的单通道ASR系统；

步骤1-1：多头注意力机制MHA；

多头注意力机制表达为下式：

MHA(Q，K，V)＝Concat(U₁，…，U_n)W^O

其中

分别称为质询矩阵、键矩阵和值矩阵；Concat(·)是矩阵拼接操作，n代表头的数量，

是可学习的变换矩阵；

第i个头U_i的运算表达为：

其中

都是可学习的变换矩阵，D_k＝D_h/n是每个头的特征向量维度；

步骤1-2:单通道ASR系统；

给定一个语料的输入声学特征

及其目标输出文本序列

其中T和D_x分别是输入X的长度和特征维度，L和D_v分别是输出的长度和字典大小；

首先，输入X经过卷积下采样层，得到下采样后的输入

然后经过编码器Enc(·)和解码器Dec(·)：

其中下标N₁和N₂分别代表编码器和解码器的块数量,Emb(·)代表线性变换和位置编码；

为当前解码时间步l之前的输出，

为解码时间步l的语义向量，

是由编码器提取得到的高维表征；

最后，通过一个线性变换将c_l映射为输出向量y_l；

单通道ASR系统采用干净语音进行学习，优化目标是最大化下式：

其中o_l是输出文本序列O的第l个时间步的文本向量；

步骤1-3：将多头注意力机制加入单通道ASR系统的编码器和解码器中，得到基于多头注意力机制的单通道ASR系统；

步骤2：基于Scaling Sparsemax的多层流注意力机制的多通道ASR系统；

步骤2-1：基于Scaling Sparsemax的多层流注意力机制；

流注意力的计算定义为：

StreamAttention(Q，K，V)＝Z+FeedForward(Z)

其中，Z＝MHA(Q，K，V)，FeedForward(·)是前向输出模块；

流注意力将每个通道的高维语义向量C_l和导向矢量g_l作为输入，得到融合语义向量r_l：

将融合语义向量r_l通过输出层，获取当前时间步的输出向量y_l；

流注意力在自组织麦克风阵列任务下存在一定的局限：对于任意的输入向量z和通道i，Softmax_i(z)≠0，导致不能进行通道选择；而基于Sparsemax能够得到稀疏的解，从而达到通道选择的目的，其中Sparsemax的定义如下：

其中

代表一个K-1维的单纯形，p表示输出向量。；

Sparsemax是将输入向量z投影到设定的单纯形上，能够得到一个稀疏的输出向量，同时，这个稀疏的输出向量的求解有一个近似解：

其中

代表一个搜寻软阈值的函数；

基于Sparsemax的流注意力能够进行通道选择，但不能控制得到解的稀疏程度，从而会将过多通道置零，因此，通过一个网络输出缩放因子s以控制Sparsemax的输出稀疏程度，网络表达如下：

s＝1+ReLU(Linear([||z||，C]^T))

其中||z||是输入向量的L2范数，Linear(·)代表两层可学习线性变换，其维度分别为2×2和1×2；

Scaling Sparsemax的具体算法表述如下：

首先对输入向量z进行排序，得到z₍₁₎≥…≥z_(K)；然后从k＝K开始搜索到k＝1，当出现k满足条件

时，令

最后输出向量p，其中第i维元素值表示为

缩放因子与通道数成正比，即通道数越少，输出的稀疏程度越低，若当层通道分配权重为0，则直接丢弃而不再输入下一层，使得通道数逐层减少，稀疏程度逐层下降，直到该层不再置零后，到达平衡状态；

步骤2-2：多通道ASR系统；

多通道系统的结构描述如下：

给定一个语料所有通道的输入声学特征

其中下标k指定某个特定通道，C代表总输入通道数，每一个通道的输入声学特征分别经过单独的编码器得到每一个通道的高维表征H_k:

每一个通道单独的编码器和步骤1中的单通道ASR系统的编码器相同；

将高维表征H_k输入流注意力解码器，在第m层解码器时间步l得到的每个通道的语义向量进行拼接：

其中

由下式获取：

是经过解码器第1到N₂-1层后的输出，

是第1到第m层流注意力解码层；每一层的解码器和单通道ASR系统的解码器相同，在解码过程中根据步骤2-1中基于Sparsemax的流注意力进行通道选择的方法使用缩放因子s对通道进行选择；

同时，由之前时间步的输出向量通过第一层流注意力解码层的多头注意力机制提取导向矢量

最终将每个通道的高维语义向量C_l和导向矢量g_l作为输入，得到融合语义向量r_l，再通过输出层，获取当前时间步的输出向量y_l；

步骤3：对ASR系统进行训练；

首先用干净的语音数据训练单通道ASR，然后用多通道带噪语音数据训练基于Scaling Sparsemax的流注意力机制网络；在训练过程不进行通道丢弃操作，仅将未置零的通道数输入缩放因子网络，在解码阶段进行通道丢弃操作，且将实际剩余通道数作为缩放因子网络的输入。

本发明的有益效果如下：

本发明设计了一个利用scaling sparsemax算子在解码器部分进行多层通道筛选的算法，相比于单层通道选择，可以针对每一层的情况自适应调整可缩放因子，并提前将过噪通道权重置零并丢弃，有效地降低了解码阶段的计算复杂度，获得了一定程度的识别性能提升。

附图说明

图1为本发明的单通道ASR系统和多通道ASR系统结构示意图，其中(a)单通道ASR系统，(b)多通道ASR系统。

图2为本发明方法中缩放因子与L2范数和通道数关系图。

图3为本发明方法的基于Scaling Sparsemax多层流注意力结构图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提出了基于Conformer框架的ASR系统中的逐层通道选择方法，以优化自组织麦克风语音识别的性能并降低计算复杂度。发明的目的如下：

1).设计了一个基于Scaling Sparsemax算子的流注意力网络，并利用ScalingSparsemax中缩放因子与通道数量的关系，设计了一个用于计算缩放因子的网络，该网络输入向量L2范数以及通道数，获取可缩放因子。

2).设计了一种基于conformer的逐层通道选择ASR系统，对conformer解码器各层添加基于Scaling Sparsemax的流注意力机制网络，并加入一个各层共享的计算缩放因子的网络。

3).最后，针对自组织麦克风数据的特点以及达到逐层通道选择的效果，本发明采用了新的训练方式，首先用干净的语音数据训练单通道ASR，然后用多通道带噪语音数据训练基于Scaling Sparsemax的流注意力机制网络。为使训练稳定，训练过程不进行通道丢弃操作，仅将未置零的通道数输入缩放因子网络，在解码阶段进行通道丢弃操作，且将实际剩余通道数作为缩放因子网络的输入。

一种自组织麦克风语音识别的逐层通道选择方法，包括如下步骤：

步骤1：构建基于多头注意力机制的单通道ASR系统；

步骤1-1：多头注意力机制MHA；

多头注意力(Multi-Head Attention,MHA)机制在编码器和解码器中都扮演重要的角色，同时也是conformer结构相较于双向长短时记忆结构的关键不同点。多头注意力机制表达为下式：

MHA(Q，K，V)＝Concat(U₁，…，U_n)W^O

其中

是可学习的变换矩阵；

第i个头U_i的运算表达为：

其中

步骤1-2：单通道ASR系统；

如图1(a)所示，给定一个语料的输入声学特征

及其目标输出文本序列

首先，输入X经过卷积下采样层，得到下采样后的输入

然后经过编码器Enc(·)和解码器Dec(·)：

为当前解码时间步l之前的输出，

为解码时间步l的语义向量，

是由编码器提取得到的高维表征；

最后，通过一个线性变换将c_l映射为输出向量y_l；

其中o_l是输出文本序列O的第l个时间步的文本向量；

步骤2-1：基于Scaling Sparsemax的多层流注意力机制；

流注意力的计算定义为：

StreamAttention(Q，K，V)＝Z+FeedForward(Z)

其中，Z＝MHA(Q，K，V)，FeedForward(·)是前向输出模块；

其中

代表一个K-1维的单纯形，p表示输出向量。；

其中

代表一个搜寻软阈值的函数；

s＝1+ReLU(Linear([||z||，C]^T))

如图3所示，Scaling Sparsemax的具体算法表述如下：

时，令

最后输出向量p，其中第i维元素值表示为

对于缩放因子的结果，图2展示了缩放因子与通道数及L2范数的关系，从图中可以看出，缩放因子与通道数成正比，即通道数越少，输出的稀疏程度越低，若当层通道分配权重为0，则直接丢弃而不再输入下一层，使得通道数逐层减少，稀疏程度逐层下降，直到该层不再置零后，到达平衡状态；该结构不仅可以提高识别性能，且可以降低计算复杂度，加快解码速度。

步骤2-2：多通道ASR系统；

如图1(b)所示，多通道系统的结构描述如下：

给定一个语料所有通道的输入声学特征

其中

由下式获取：

是经过解码器第1到N₂-1层后的输出，

步骤3：对ASR系统进行训练；

具体实施例：

本实施例使用了三个数据集：Librispeech语料库、基于Librispeech仿真得到的自组织麦克风阵列环境下的Libri-adhoc-simu数据集、以及40个分布式麦克风在真实环境中回放Librispeech的Libri-adhoc40。Libri-adhoc-simu和Libri-adhoc40的自组织麦克风阵列的每个节点均为单麦克风，一个通道代表一个节点。Librispeech包含了2484名演讲者1000多小时的英语演讲。实施例中选择了960小时的数据来训练单通道ASR系统，并选择了10小时的数据进行验证。

对于仿真数据，Libri-adhoc-simu使用Librispeech数据的100小时“train-100”子集作为训练数据。使用“dev-clean”子集作为验证数据，总共包含10个小时的数据。将“test-clean”子集作为两个单独的测试集，分别包含5小时的测试数据。所模拟的房间的长度和宽度从[5,25]米的范围内随机选择，高度从[2.7,4]中随机选取，多个麦克风和一个扬声器源被随机放置在房间里。将声源与墙之间的距离限制为大于0.2米，声源和麦克风之间的距离至少为0.3米。使用了理想源模型模拟混响环境，并从[0.2,0.4]s范围内选择T60，背景噪声产生模型用于模拟不相关的背景噪声。用于训练和验证的噪声源是一个包含超过20000个噪声段的大规模噪声库，用于测试的噪声源是来自CHIME-3数据集和NOISEX-92语料库的噪声段,实验中为训练和验证集随机生成了16个通道，为测试集分别生成了10和20个通道。

对于实测数据，Libri-adhoc40是通过在一个房间里回放Librispeech的“trainclean-100”、“dev-clean”和“test-clean”语料库来收集的。录音环境是真实环境中的办公室，有一个扬声器和40个麦克风，混响强、加性噪声小。扬声器和麦克风的位置在训练和测试集中是不同的，在训练、验证和测试集中，扬声器分别放置在9、4和4个不同位置。扬声器和麦克风之间的距离在[0.8,7.4]米。训练集和验证集每句话语随机选择20个通道，测试集每句话语随机选择16和32个通道，对应于两个测试场景。

特征及模型结构详见表一。在训练阶段，首先用干净的Librispeech数据训练了基于单通道的ASR模型。当模型训练完毕后，参数被固定并送到基于多通道的ASR模型。最后，用多通道带噪数据训练了多层流注意力机制网络，训练阶段不进行通道丢弃，只改变计算缩放因子网络的输入。在测试阶段，进行通道逐层丢弃，不使用语言模型，采用贪婪解码，采用WER作为评价指标。

表一.声学特征及模型设置

实施例比较了所提出的Sparsemax和Scaling Sparsemax与Softmax流注意力机制。此外构建了一个“理想最优通道”算法，它选择物理上最接近声源的通道，并作为单通道ASR模型的输入。关键字“理想”意味着扬声器和麦克风之间的距离是事先知道的。

表二.Libri-adhoc-simu仿真数据集的结果(WER(％))

表三.Libri-adhoc40真实数据集的结果(WER(％))

表二列出了比较方法在Libri-adhoc-simu上的性能。从表中可得：(1)所有三种流注意方法在两种测试场景中都表现良好，并且测试场景都是训练阶段未见过的通道数，证明了流注意力的泛化性能。(2)Sparsemax和多层Scaling Sparsemax都比Softmax有显著的性能改进。例如，在20通道测试场景中，基于多层Scaling Sparsemax的流注意力在“test-clean”数据集下，较基于Softmax的流注意力方法WER相对降低30.90％。

表三显示了Libri-adhoc40真实数据的结果。从表中可以看出，提出的多层ScalingSparsemax表现良好。在32通道测试场景中，它实现了WER相对降低20.1％；较“理想最优通道”WER相对降低10.4％。

同时，从表二表三中可以发现，基于Scaling Sparsemax的多层流注意力不仅得到了性能提升，并且计算复杂度由

降低至

证明本发明提出的多层Scaling Sparsemax结构在有效降低解码计算复杂度的同时，还能提前丢弃无用的通道，一定程度地提升性能。