CN113129873A

CN113129873A - 堆叠式一维卷积网络唤醒声学模型的优化方法及系统

Info

Publication number: CN113129873A
Application number: CN202110459204.1A
Authority: CN
Inventors: 王蒙; 薛少飞; 唐健
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-07-16
Anticipated expiration: 2041-04-27
Also published as: CN113129873B

Abstract

本发明实施例提供一种堆叠式一维卷积网络唤醒声学模型的优化方法。该方法包括：调整堆叠式一维卷积网络唤醒声学模型中的时域卷积层的膨胀系数，增加时域卷积层输出的感受野；将时域卷积层的激活函数设置成门控线性单元，利用门控线性单元与时域卷积层的输出相结合，降低时域卷积层输出的维度，以优化堆叠式一维卷积网络唤醒声学模型。本发明实施例还提供一种堆叠式一维卷积网络唤醒声学模型的优化系统。本发明实施例卷积核的间隔引起感受野的增加，则有效的增大了模型的感受野，提升唤醒精度，同时门控线性单元与S1DCNN模型相结合之后，输出的维度可以降至原来的一半，更好的压缩了模型参数量，从而在相同参数量下，可以达到更高的唤醒率。

Description

堆叠式一维卷积网络唤醒声学模型的优化方法及系统

技术领域

本发明涉及智能语音领域，尤其涉及一种堆叠式一维卷积网络唤醒声学模型的优化方法及系统。

背景技术

S1DCNN(Stacked 1D convolutional networks，堆叠式一维卷积网络)唤醒声学模型，是由不同若干个S1DCNN层组成的；每一个S1DCNN层主要由两个一维卷积层(cnn)构成。第一个卷积层是频域卷积，第二个卷积层是时域卷积，并且各个通道互不相关，被称为depth-wise(深度)卷积。S1DCNN相比传统的二维CNN，在降低计算量的同时，能够达到相同水平的性能，或者性能损失较小，在轻量级的声学模型(比如，语音唤醒的声学模型)中有更高的使用价值。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

S1DCNN的时域卷积的感受野比较单一(感受野，reception fields，指某一层特性图中某个位置的特征向量，是由前面某一层固定区域的输入计算出来的，那这个区域就是这个位置的感受野)。

并且在使用后处理算法的语音唤醒系统中，S1DCNN声学模型的稳定性不高。具体表现为，同一种结构，在不同数据集上，相比基线，唤醒率有提升，也有下降。

发明内容

为了至少解决堆叠式一维卷积网络唤醒声学模型感受野较为单一，并且稳定性不高的问题。

第一方面，本发明实施例提供一种堆叠式一维卷积网络唤醒声学模型的优化方法，包括：

调整堆叠式一维卷积网络唤醒声学模型中的时域卷积层的膨胀系数，增加所述时域卷积层输出的感受野；

将所述时域卷积层的激活函数设置成门控线性单元，利用所述门控线性单元与所述时域卷积层的输出相结合，降低所述时域卷积层输出的维度，以优化所述堆叠式一维卷积网络唤醒声学模型。

第二方面，本发明实施例提供一种堆叠式一维卷积网络唤醒声学模型的优化系统，包括：

膨胀系数调整程序模块，用于调整堆叠式一维卷积网络唤醒声学模型中的时域卷积层的膨胀系数，增加所述时域卷积层输出的感受野；

优化程序模块，用于将所述时域卷积层的激活函数设置成门控线性单元，利用所述门控线性单元与所述时域卷积层的输出相结合，降低所述时域卷积层输出的维度，以优化所述堆叠式一维卷积网络唤醒声学模型。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的堆叠式一维卷积网络唤醒声学模型的优化方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的堆叠式一维卷积网络唤醒声学模型的优化方法的步骤。

本发明实施例的有益效果在于：卷积核的间隔引起感受野的增加，则有效的增大了模型的感受野，使得声学模型能看得到更多的历史信息，提升唤醒精度，同时门控线性单元与S1DCNN模型相结合之后，输出的维度可以降至原来的一半，更好的压缩了模型参数量，从而在相同参数量下，可以达到更高的唤醒率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种堆叠式一维卷积网络唤醒声学模型的优化方法的流程图；

图2是本发明一实施例提供的一种堆叠式一维卷积网络唤醒声学模型的模型结构示意图；

图3是本发明一实施例提供的一种堆叠式一维卷积网络唤醒声学模型的另一模型结构示意图；

图4是本发明一实施例提供的一种堆叠式一维卷积网络唤醒声学模型测试结果数据示意图；

图5是本发明一实施例提供的一种堆叠式一维卷积网络唤醒声学模型的优化系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种堆叠式一维卷积网络唤醒声学模型的优化方法的流程图，包括如下步骤：

S11：调整堆叠式一维卷积网络唤醒声学模型中的时域卷积层的膨胀系数，增加所述时域卷积层输出的感受野；

S12：将所述时域卷积层的激活函数设置成门控线性单元，利用所述门控线性单元与所述时域卷积层的输出相结合，降低所述时域卷积层输出的维度，以优化所述堆叠式一维卷积网络唤醒声学模型。

在本实施方式中，S1DCNN是由若干S1DCNN层组成的。每一个S1DCNN层是由两个卷积层组成的。如下列公式所示：

作为一种实施方式，所述堆叠式一维卷积网络唤醒声学模型还包括：频域卷积层；将经过预设历史时序偏移后的所述频域卷积层的输出作为时域卷积层的输入。

在eq1中，x_f,t表示时刻t，频域维度f的输入值，N是输出通道数，n表示输出通道中的某一个通道；

和⁽ⁿ⁾表示一维卷积的系数，该卷积是在频域上进行；g^(1st)表示频域卷积的激活函数，在实际的网络中，并未使用激活函数；

是频域卷积的第n个通道，第t时刻的输出；

对于步骤S11，在eq2中，

表示时刻t-K+k+L在通道N的输入,

和b’⁽ⁿ⁾分别表示通道n的卷积参数，σ表示第二层卷积，即深度(depth-wise)卷积的sigmoid激活函数。K表示卷积核，L代表了在未来时序上的偏移，相应的，K-L-1代表了历史时序的偏移。eq2整体表示一个一维时域卷积，与传统卷积不同的是，各个输出通道互不相关，因此被称作depth-wise卷积。在实验过程中，采用group卷积实现depth-wise卷积操作。

膨胀系数(dilation，指的是卷积核的间隔数量；dialation等于1，卷积核常规计算，在实际优化中，可以按照需求进行适当调整，例如，卷积核的间隔数量调整为三个，包含了三种感受野，即高，中，低感受野的时域卷积。从而增加了所述时域卷积层输出的感受野；

对于步骤S12，S1DGLU模型，是在S1DCNN的基础上，将sigmoid激活函数改为门控线性单元(glu，gated linear units)。假设第i层S1DCNN层中的频域卷积被表示为

时域卷积被表示为

hⁱ表示

的输出，glu可以表示为：

其中，hⁱ被分为

和

二者通道数相同。σ表示sigmoid函数，

表示点乘。经过glu，输出通道减半，模型的参数量因此被压缩。模型结构如图2所示。

通过该实施方式可以看出，卷积核的间隔引起感受野的增加，则有效的增大了模型的感受野，使得声学模型能看得到更多的历史信息，提升唤醒精度，同时门控线性单元与S1DCNN模型相结合之后，输出的维度可以降至原来的一半，更好的压缩了模型参数量，从而在相同参数量下，可以达到更高的唤醒率。

作为一种实施方式，在本实施例中，所述调整堆叠式一维卷积网络唤醒声学模型中的时域卷积层的膨胀系数包括：

基于膨胀系数确定所述时域卷积层内卷积核的间隔数量，使所述时域卷积层输出的多个感受野的时域卷积。

所述使所述时域卷积层输出的多个感受野的时域卷积包括：

通过逐通道的注意力机制输出第一感受野的时域卷积和第二感受野的时域卷积。

在本实施方式中，优选了高感受野和低感受野两个时域卷积，修改后的模型称为多分辨率模型MRG-S1D。

使用高和低感受野的时域卷积，通过逐通道的注意力机制，将高低感受野卷积的输出，更好的整合。模型结构如图3所示。高感受野的卷积被表示为

该层的输出被表示为h^iH；低感受野的卷积被表示为

该层的输出被表示为h^iL,h^iL∈R^Dx1。所有的通道被分为G组，每一组包含D/G，即D‘个通道。这个结构用公式表示为：

eⁱ＝v^Ttanh(Wh^iH+Uh^iL+bⁱ)

hⁱ＝h^iLsoftmax(eⁱ)

其中W∈R^DxD’,U∈R^D’xD’，被称作转换矩阵，他们将特征和高分辨率状态映射到同一维度。v∈R^D’x1,bⁱ是向量。

对比S1DCNN，S1DGLU和MRG-S1D三个模型在“你好小驰”数据集上的测试结果，实验结果如图4所示。

在图中，NP(model parameters)表示模型参数量，MACC(computationcomplexity)表示计算复杂度，FRR(false reject ratio)表示错误拒绝率，它与模型的唤醒率相加等于100％。测试集是办公室场景录制，信噪比分别控制在0dB,5dB和10dB，表格中的Avg表示平均唤醒率。所有的FRR值是在误唤醒率0.1次/h的情况下得到的。

对比图中的结果，S1DGLU的性能优于S1DCNN，而MRG-S1D的性能进一步提升，相比S1DCNN模型，FRR相对下降了39.8％。S1DCNN的模型参数量，从716k增加到800k，FRR只有微小下降，说明MRG-S1D和MRG-S1D的性能提升，与模型参数量的增加无关。

要注意的是，膨胀系数的选择并不是越高、感受野越多越好，在三种感受野，即高，中，低感受野的时域卷积。三个时域卷积的输出，通过门控线性单元，进行信息整合，并输入到下一层频域卷积中。门控线性单元的运算过程，将高中低感受野的卷积输出，直接叠加，反而减弱了模型的学习能力。

作为一种实施方式，在本实施例中，所述方法还包括：利用instance norm或groupnorm对所述堆叠式一维卷积网络唤醒声学模型训练，以使所述堆叠式一维卷积网络唤醒声学模型适用于离线唤醒。

在本实施方式中，为了提升S1DCNN的性能，我们做了多种模型结构上的改动尝试，包括：替换batch norm为其他norm类型，例如instance norm,group norm等等，以及使用了attention注意力机制，只选择一些关键的信息输入进行处理，从而提高神经网络的效率。

通过该实施方式可以看出，norm类型的尝试，表明batch norm是常见norm类型中，最适用于语音唤醒系统；原因是，语音唤醒系统是一个实时监测系统，而不是离线监测系统；前者，模型的输入为当前帧，而后者的输入是一段语音，包含缓存器中的所有/一部分语音帧，group norm以及instance norm更适合离线系统。

如图5所示为本发明一实施例提供的一种堆叠式一维卷积网络唤醒声学模型的优化系统示意图，该系统可执行上述任意实施例所述的堆叠式一维卷积网络唤醒声学模型的优化方法，并配置在终端中。

本实施例提供的一种堆叠式一维卷积网络唤醒声学模型的优化系统10包括：膨胀系数调整程序模块11和优化程序模块12。

其中，膨胀系数调整程序模块11用于调整堆叠式一维卷积网络唤醒声学模型中的时域卷积层的膨胀系数，增加所述时域卷积层输出的感受野；优化程序模块12用于将所述时域卷积层的激活函数设置成门控线性单元，利用所述门控线性单元与所述时域卷积层的输出相结合，降低所述时域卷积层输出的维度，以优化所述堆叠式一维卷积网络唤醒声学模型。

进一步地，所述膨胀系数调整程序模块用于：

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的堆叠式一维卷积网络唤醒声学模型的优化方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的堆叠式一维卷积网络唤醒声学模型的优化方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的堆叠式一维卷积网络唤醒声学模型的优化方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种堆叠式一维卷积网络唤醒声学模型的优化方法，包括：

2.根据权利要求1所述的方法，其中，所述调整堆叠式一维卷积网络唤醒声学模型中的时域卷积层的膨胀系数包括：

3.根据权利要求2所述的方法，其中，所述使所述时域卷积层输出的多个感受野的时域卷积包括：

4.根据权利要求1所述的方法，其中，所述堆叠式一维卷积网络唤醒声学模型还包括：频域卷积层；

将经过预设历史时序偏移后的所述频域卷积层的输出作为时域卷积层的输入。

5.根据权利要求1所述的方法，其中，所述堆叠式一维卷积网络唤醒声学模型还包括：批归一化层，用于加快所述唤醒模型的收敛。

6.根据权利要求1所述的方法，其中，所述方法还包括：利用instance norm或groupnorm对所述堆叠式一维卷积网络唤醒声学模型训练，以使所述堆叠式一维卷积网络唤醒声学模型适用于离线唤醒。

7.一种堆叠式一维卷积网络唤醒声学模型的优化系统，包括：

8.根据权利要求7所述的系统，其中，所述膨胀系数调整程序模块用于：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。