CN113113000A

CN113113000A - 基于自适应掩膜和分组线性变换的轻量级语音识别方法

Info

Publication number: CN113113000A
Application number: CN202110367779.0A
Authority: CN
Inventors: 李鹏华; 程家伟; 刘行谋; 张亚鹏; 俞方舟; 陈旭赢; 乐磊; 张恩浪; 董江林
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2021-07-13
Anticipated expiration: 2041-04-06
Also published as: CN113113000B

Abstract

本发明涉及一种基于自适应掩膜和分组线性变换的轻量级语音识别方法，属于数据处理领域。该方法包括以下步骤：S1：基于自适应掩膜注意力机制的编码；S2：基于分组线性变换。本发明从模型算法角度出发，为解决语音识别在边缘计算设备上的轻量化部署难题提供一种新的方法，通过基于自适应掩膜的局部注意力机制提取语音特征的局部信息并与融合全局信息，使用基于分组线性变换的解码网络，完成对语音高层抽象特征的轻量化解码。

Description

基于自适应掩膜和分组线性变换的轻量级语音识别方法

技术领域

本发明属于数据处理领域，涉及基于自适应掩膜和分组线性变换的轻量级语音识别方法

背景技术

目前，各种深度神经网络被应用于语音识别领域并取得了显著的成效，这种方式通常将识别模型部署于服务器端，以在线的方式为用户提供相关服务。受网络不确定性的影响，该方式无法得到识别结果的实时反馈，同时由于数据存储在云端，无法从根本上保证用户的隐私和识别的安全。而上述语音识别模型在计算资源受限的嵌入式边缘计算设备上部署的困境在于，语音识别模型结构庞大、计算复杂，同时无法在模型体积受限的情况下提取语音帧的局部信息，轻量级的离线语音识别依然面临重大挑战。

许多研究工作利用注意力机制捕获语音特征序列之间的上下文关系。这种注意力机制在捕获在长期依赖的时序关系上普遍表现较好，但其使用完整序列之间的点积来得到相应的注意力权重，因此无法对与发音、声调存在关联的局部信息进行建模。与此同时，大部分研究在解码网络中使用深度全连接网络对编码网络输出的高层抽象特征进行解码，以自回归的方式得到文本输出。全连接网络中的神经元采用密集连接的方式彼此传递信息，很少有研究考察解码网络神经元之间的其它连接方式，比如，稀疏连接和局部连接的方式。当模型维度较大、层数较深时，采用密集连接的深度全连接网络将大大增加模型的参数量和算力消耗，不利于模型的轻量化部署。

发明内容

有鉴于此，本发明的目的在于提供一种基于自适应掩膜和分组线性变换的轻量级语音识别方法。

为达到上述目的，本发明提供如下技术方案：

基于自适应掩膜和分组线性变换的轻量级语音识别方法，该方法包括以下步骤：

S1：基于自适应掩膜注意力机制的编码；

S2：基于分组线性变换。

可选的，所述S1具体为：

对于长度为T，维度为d为的语音特征序列X＝[x₁,x₂,…,x_t,…,x_T]^T，其中

定义α为缩放点积多头自注意力机制，用于捕获特征序列之间的全局依赖关系；定义β为局部注意力机制，用于获取特征序列的局部关联性；通过自适应掩膜，对β各个表示子空间中的注意力权值作用范围进行动态地学习适配：

其中，W_θ∈[0,W]为可学习的网络参数，其能够控制允许信息反向传播的注意力作用范围；自适应掩膜参数m(t,i)∈[0,1]用于计算最终的注意力权值B_t,j；score_t,j为原始注意力得分；abs(·)表示取绝对值，R是用于缓冲的超参数；将B_t,j作用于各表示子空间中自X映射的值向量

即得到约束后的表示子空间输出序列

随后，将各表示子空间的输出序列按维度拼接，得到自适应掩膜注意力机制的输出序列；自适应掩膜注意力机制将根据自注意力机制的输出结果，对语音序列进行局部特征提取；并通过耦合叠加的方式，融合全局和局部两种不同层次的信息；最后将提取的特征通过含有两层全连接网络的前馈网络以丰富网络的表达能力。

可选的，所述S2具体为：

构建分组切分操作，将输入和输出分成g^l组，l为解码网络的层数；然后使用混合器将分组的输入和输出混合，形成扩张和收缩两个阶段的“缩放单元”；

在扩张阶段，分组组数随着网络深度的加深而变多，神经元数量也会变多，反之亦然；

在收缩阶段，“缩放单元”中配置5个配置参数：深度N、宽度因子m_w、输入维度d_m、输出维度d_o、最大组数g_max；在扩张阶段，该单元将维度为d_m的输入序列映射到更高维度，限制最高维度d_max＝m_wd_m，同时各层层数将会线性地增加到

层；在收缩阶段，将维度为d_max的向量线性地降低到d_o维度，收缩阶段将使用剩余的

层：

其中，Y^l为一个“缩放单元”中某一层l的输出，π为分组线性变换，π的输入为输入特征序列X或者中间层输出结果γ(X,Y^l-1)；

过程1：函数γ首先将对Y^l-1进行切分，然后使用混合器将切分结果与输入特征序列X的切分结果进行合并，过程1为一个分组线性变换；各层组数的划分依据为：

为进一步实现网络的轻量化，除考虑构筑块内的特征序列维度的扩张和收缩外，还考虑构筑块之间的堆叠所造成的影响；在各个构筑块间引入不同的深度和宽度因子约束：

其中，N^b和

为第b块“缩放单元”的深度和宽度因子，B表示总块数，N_min与N_max为超参数，为设定的最小深度和最大深度；每个块中，在“缩放单元”之后级联自注意力机制、互注意力机制和前馈网络，形成解码网络。

本发明的有益效果在于：从模型算法角度出发，为解决语音识别在边缘计算设备上的轻量化部署难题提供一种新的方法，通过基于自适应掩膜的局部注意力机制提取语音特征的局部信息并与融合全局信息，使用基于分组线性变换的解码网络，完成对语音高层抽象特征的轻量化解码。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为基于于自适应掩膜和分组线性变换的轻量级语音识别原理图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

针对语音识别模型的轻量化需求，研究基于自适应掩膜和分组线性变换的轻量级语音识别方法。以语音特征序列对象，设计基于自适应掩膜的局部注意力机制，以及相应的编码网络；以采用深度全连接的解码网络为对象，研究分组线性变换作用下解码网络的稀疏连接方式，实现对编码网络输出序列的轻量化、快速解码。

基于自适应掩膜和分组线性变换的轻量级语音识别，如图1所示，包括基于自适应掩膜注意力机制的编码、基于分组线性变换的解码两个步骤。

1)基于自适应掩膜注意力机制的编码

定义α为缩放点积多头自注意力机制，用于捕获特征序列之间的全局依赖关系；定义β为局部注意力机制，用于获取特征序列的局部关联性。通过自适应掩膜，对β各个表示子空间中的注意力权值作用范围进行动态地学习适配：

其中，W_θ∈[0,W]为可学习的网络参数，其能够控制允许信息反向传播的注意力作用范围。自适应掩膜参数m(t,i)∈[0,1]用于计算最终的注意力权值B_t,j。score_t,j为原始注意力得分。abs(·)表示取绝对值，R是用于缓冲的超参数。将B_t,j作用于各表示子空间中自X映射的值向量

即得到约束后的表示子空间输出序列

随后，将各表示子空间的输出序列按维度拼接，得到自适应掩膜注意力机制的输出序列。自适应掩膜注意力机制将根据自注意力机制的输出结果，对语音序列进行局部特征提取。并通过耦合叠加的方式，融合全局和局部两种不同层次的信息。最后将提取的特征通过含有两层全连接网络的前馈网络以丰富网络的表达能力，进而提高泛化能力。

2)基于分组线性变换的轻量级解码

综合考虑解码过程中涉及的残差连接、分组切分和混合器等操作，设计相应的分组线性变换策略。具体地，构建分组切分操作，将输入和输出分成gl组(l为解码网络的层数)，然后使用混合器将分组的输入和输出混合。该策略提高了输入特征的复用效率，同时由于使用稀疏连接，能大幅减少网络的参数量。基于分组线性变换，可以形成网络更深、包含扩张和收缩两个阶段的“缩放单元”。在扩张阶段，分组组数随着网络深度的加深而变多，神经元数量也会变多，反之亦然。

在“缩放单元”中配置5个配置参数：深度N、宽度因子m_w、输入维度d_m、输出维度d_o、最大组数g_max。在扩张阶段，该单元将维度为d_m的输入序列映射到更高维度(限制最高维度d_max＝m_wd_m)，同时各层层数将会线性地增加到

层。在收缩阶段，将维度为d_max的向量线性地降低到d_o维度，收缩阶段将使用剩余的

层：

其中，Y^l为一个“缩放单元”中某一层l的输出，π为分组线性变换，π的输入为输入特征序列X或者中间层输出结果γ(X,Y^l-1)，函数γ首先将对Y^l-1进行切分，然后使用混合器将切分结果与输入特征序列X的切分结果进行合并，该过程为一个分组线性变换。各层组数的划分依据为：

为了进一步实现网络的轻量化，除考虑上述构筑块内的特征序列维度的扩张和收缩外，还应考虑构筑块之间的堆叠所造成的影响。为此，在各个构筑块间引入不同的深度和宽度因子约束：

其中，N^b和

为第b块“缩放单元”的深度和宽度因子，B表示总块数，N_min与N_max为超参数，为设定的最小深度和最大深度。每个块中，在“缩放单元”之后级联自注意力机制、互注意力机制和前馈网络，即形成解码网络。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。