CN112669824B

CN112669824B - 构建声学模型的方法、语音识别系统和语音识别方法

Info

Publication number: CN112669824B
Application number: CN202011536618.1A
Authority: CN
Inventors: 薛少飞
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2022-04-15
Anticipated expiration: 2040-12-23
Also published as: CN112669824A

Abstract

本发明公开一种构建声学模型的方法，包括：预先训练门控残差DFSMN神经网络模块；顺序连接多个所述门控残差DFSMN神经网络模块；为所述顺序连接的多个所述门控残差DFSMN神经网络模块配置输入层和输出层构成所述声学模块。本发明实施例中首先预先训练门控残差DFSMN神经网络模块，然后再将多个顺序连接构成深度门控残差DFSMN网络作为声学模型。由于预先训练的门控残差DFSMN神经网络模块本身具备了多层DFSMN，因此得到的具有多个门控残差DFSMN神经网络模块的声学模型所包含的DFSMN层可达到上百层。而实际进行训练时只需要训练相对较小的门控残差DFSMN神经网络模块，最后通过堆叠的方式得到深度声学模型。因此既降低了训练学习的成本，同时还确保了最终所得到的声学模型的性能。

Description

构建声学模型的方法、语音识别系统和语音识别方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种构建声学模型的方法、语音识别系统和语音识别方法。

背景技术

语音识别，通俗来讲，就是将一段语音信号转换成对应的文本信息。具体来说，语音识别是从一段连续声波中采样，将每个采样值量化；然后对量化的采样音频进行分帧，对于每一帧，抽取出一个描述频谱内容的特征向量；最后根据语音信号的特征识别语音所代表的单词。

语音识别的整个流程，主要包含特征提取和解码(声学模型、字典、语言模型)部分。

特征提取：从语音波形中提取出随时间变化的语音特征序列(即将声音信号从时域转换到频域)，为声学模型提供合适的特征向量。主要算法有线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC)。

声学模型：根据声学特性计算每一个特征向量在声学特征上的得分，输入是特征向量，输出为音素信息。最常用的声学建模方式是隐马尔科夫模型(HMM)，基于深度学习的发展，深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)等模型在观测概率的建模中取得了非常好的效果。

字典：字或者词与音素的对应，中文就是拼音和汉字的对应，英文就是音标与单词的对应。(音素，单词的发音由音素构成。对英语来说，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集，汉语一般直接用全部声母和韵母作为音素集)。

语言模型：通过对大量文本信息进行训练，得到单个字或者词相互关联的概率。语音识别中，最常见的语言模型是N-Gram。近年，深度神经网络的建模方式也被应用到语言模型中，比如基于CNN及RNN的语言模型。

解码：通过声学模型、字典、语言模型对提取特征后的音频数据进行文字输出。

在语音识别整个流程中，声学模型作为识别系统的底层模型，它占据着语音识别大部分的计算开销，决定着语音识别系统的性能。所以，声学模型是语音识别系统中最关键的一部分。

DFSMN是语音识别声学模型建模的一种模型结构，经历了FSMN到cFSMN再到DFSMN的演化历程(网络结构参见图1a、图1b和图1c)，FSMN最早在2016年被提出，并被用于语言模型、声学模型建模，2018年DFSMN结构被提出，并应用于大规模连续语音识别。DFSMN是一种能够较好的均衡识别效果和计算开销的模型结构，在大规模语音识别应用中有着较高的性价比。

如图1a所示为FSMN的网络结构示意图，包括输入层、隐藏层和输出层，并且在隐藏层处配置有记忆模块，记忆模块的作用与LSTM门结构类似，可以用来记住t时刻输入信息的相邻时刻序列的信息。根据记忆模块编码方式的区别，FSMN又可以分为sFSMN和vFSMN，前者代表以标量系数编码，后者代表以向量系数编码。

如图2所示是以记住前N个时刻信息为例的网络结构图。对应于sFSMN和vFSMN的计算公式分别如下：

其中，(1)式代表的是标量乘积，(2)式代表的是Hadamard积。

因此，可以得到sFSMN下的编码系数向量和vFSMN下的编码系数矩阵：

有了这一个隐藏层旁挂着的记忆模块，就要将此记忆模块作为输入传递到下一个隐藏层，如图(1a)：

多出来的权重矩阵和偏置系数向量，都是后续训练模型需要调整的参数。

以上就是简单的回看式FSMN，也就是说当下的记忆模块只关注了它之前的信息，如果还要关注未来的信息，实现上下文联通，也就是所谓的双向的FSMN，直接在(1)式和(2)式中添加后看的阶数即可，如下：

其中N1和N2分别代表前看和后看的阶数。

如图1b所示为cFSMN的网络结构示意图。有了之前对FSMN结构的了解，现在看cFSMN结构就很简单。由于FSMN需要将记忆模块的输出作为下一个隐层的额外输入，这样就会引入额外的模型参数。而隐层包含的节点越多，则引入的参数越多。

基于此，cFSMN结合矩阵低秩分解的思路，通过在网络的隐层后添加一个低维度的线性投影层，并且将记忆模块添加在这些线性投影层上。进一步的，cFSMN对记忆模块的编码公式进行了一些改变，通过将当前时刻的输出显式的添加到记忆模块的表达中，从而只需要将记忆模块的表达作为下一层的输入。这样可以有效的减少模型的参数量，加快网络的训练。具体的，单向和双向的cFSMN记忆模块的公式表达分别如下：

如图1c所示为cFSMN的网络结构示意图。观察结构图可以发现，DFSMN是在cFSMN的基础上，在不同层之间的记忆模块上添加了跳转链接skip connection，从而使得低层记忆模块的输出会被直接累加到高层记忆模块里。这样在训练过程中，高层记忆模块的梯度会直接赋值给低层的记忆模块，从而可以克服由于网络的深度造成的梯度消失问题，使得可以稳定地训练深层的网络。

并且，通过借鉴扩张卷积的思路，DFSMN在记忆模块中引入了一些步幅因子stripe，具体的计算公式如下：

关于变换H可以是任意的线性或者非线性函数，特别的，如果每一层的记忆模块都是相同维度的，可以直接使用恒等映射：

至于为什么要引入步幅因子，是因为在实际工作处理中，临近单元信息会有大量的冗余，而步幅因子就可以帮助模型适当地消除这种冗余，从而加快模型的训练。

对于DFSMN虽然理论上在不同层之间的记忆模块上添加了跳转链接skipconnection，从而使得低层记忆模块的输出会被直接累加到高层记忆模块里。这样在训练过程中，高层记忆模块的梯度会直接赋值给低层的记忆模块，从而可以克服由于网络的深度造成的梯度消失问题，使得可以稳定地训练深层的网络。但是在实践中发现这种只在单层之间增加跳转链接的方式，在训练层数非常多的深度DFSMN时仍会发生梯度消失问题，从而导致模型不能够很鲁棒的进行训练，造成增加模型深度不能带来识别效果提升，甚至会带来识别准确率下降的问题。

发明内容

本发明实施例提供一种构建声学模型的方法、语音识别系统和语音识别方法，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种构建声学模型的方法，包括：

预先训练门控残差DFSMN神经网络模块；

顺序连接多个所述门控残差DFSMN神经网络模块；

为所述顺序连接的多个所述门控残差DFSMN神经网络模块配置输入层和输出层构成所述声学模块。

第二方面，本发明实施例提供一种语音识别系统，包括：

特征提取网络，用于从音频信号中提取声学特征；

根据本发明任一实施例所述的构建声学模型的方法所构建的声学模型，用于将所述声学特征转换为相应的音素信息；

字典，用于将所述音素信息转换为相应的文本信息；

语言模型，用于确定对应于所述文本信息的文本内容。

第三方面，本发明实施例提供一种语音识别方法，包括：采用本发明任一实施例所述的语音识别系统将待识别音频信号识别为相应的文本内容。

第四方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音识别方法。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项语音识别方法。

第六方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音识别方法。

本发明实施例中首先预先训练门控残差DFSMN神经网络模块，然后再将多个顺序连接构成深度门控残差DFSMN网络作为声学模型。由于预先训练的门控残差DFSMN神经网络模块本身具备了多层DFSMN，因此得到的具有多个门控残差DFSMN神经网络模块的声学模型所包含的DFSMN层可达到上百层。而实际进行训练时只需要训练相对较小的门控残差DFSMN神经网络模块，最后通过堆叠的方式得到深度声学模型。因此既降低了训练学习的成本，同时还确保了最终所得到的声学模型的性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为现有技术中的FSMN的网络结构示意图；

图1b为现有技术中的cFSMN的网络结构示意图；

图1c为现有技术中的cFSMN的网络结构示意图；

图2为以记住前N个时刻信息为例的网络结构图；

图3为本发明的构建声学模型的方法的一实施例的流程图；

图4为本发明的声学模型的一实施例的结构示意图；

图5为本发明的构建声学模型的方法的另一实施例的流程图；

图6为本发明中训练门控残差DFSMN神经网络模块的网络结构示意图；

图7为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

面对现有技术中所存在的技术问题，所属技术领域的技术人员通常采用人工设计残差网络链接的跳转方式：通过人工设计和大量的实验来找到效果更好的跳转链接方式。该方法的问题是需要更多经验性和实验性的知识作为基础，门槛较高，同时通用扩展能力不高。

而发明人则提出了一种门控制的残差DFSMN神经网络结构，这样既能够解决背景技术中所提及的技术问题，也不会存在上述方式所带来的新的技术问题。本发明通过改变模型结构得到了深度门控制残差DFSMN神经网络结构。

如图3所示为本发明的构建声学模型的方法的一实施例的流程图，在该实施例中本发明的实施例提供一种构建声学模型的方法包括以下步骤：

S10、预先训练门控残差DFSMN神经网络模块；

S20、顺序连接多个所述门控残差DFSMN神经网络模块；

S30、为所述顺序连接的多个所述门控残差DFSMN神经网络模块配置输入层和输出层构成所述声学模块。

示例性地，输入层与所述多个门控残差DFSMN神经网络模块之间配置有第一深度神经网络层；所述输出层与所述多个门控残差DFSMN神经网络模块之间配置有第二深度神经网络层。

如图4所示为本发明的声学模型的一实施例的结构示意图。该实施例中的声学模型为深度门控残差DFSMN网络，其包括顺序连接的输入层、DNN层、多个GR-DFSMN Block层、DNN层和输出层。

本发明实施例中将多个门控制的残差DFSMN Block堆叠起来，形成如图4所示的深度门控制的残差DFSMN网络，该网络中所包含的DFSMN层可达到几十层甚至上百层。发明人通过实验训练到了100甚至200层的网络，同时还发现识别准确率仍在提升，而没有出现原DFSMN模型随着模型变得更深，识别准确率出现下降的问题。

如图5所示为本发明的构建声学模型的方法的另一实施例的流程图，在该实施例中，预先训练门控残差DFSMN神经网络模块包括：

S11、顺序连接多个DFSMN神经网络层以构成所述门控残差DFSMN神经网络模块；

S12、在所述门控残差DFSMN神经网络模块的输入端和输出端之间设置由所述门控残差DFSMN神经网络模块的输出控制的第一门控。

示例性地，所述门控残差DFSMN神经网络模块的输入端和所述第一门控之间设置有输出控制网络，输出控制网络包括DFSMN神经网络层、线性层和Sigmoid函数；

S13、在所述门控残差DFSMN神经网络模块的输入端和输出端之间设置由所述门控残差DFSMN神经网络模块的输入控制的第二门控。

示例性地，所述门控残差DFSMN神经网络模块的输入端和和所述第二门控之间设置有输入控制网络，输入控制网络包括DFSMN神经网络层、线性层和Sigmoid函数。

S14、根据所述门控残差DFSMN神经网络模块的输入和输出以及所述第一门控和所述第二门控的输出确定输入音频特征的音素信息。

示例性地，音素信息由以下公式确定：

g_in ^t＝σ(W_inF_in ^t(x^t))

g_out ^t＝σ(W_outF_out ^t(x^t))

其中，x^t是门控残差DFSMN神经网络模块的输入，g_out ^t是第一门控，g_in ^t是第二门控；F_in ^t是输入控制网络中的DFSMN神经网络层，F_out ^t是输出控制网络中的DFSMN神经网络层；F_D ^t代表门控残差DFSMN神经网络模块中核心的多层DFSMN操作，σ代表sigmoid函数。

在一些实施例中，本发明的构建声学模型的方法还包括：对所述音素信息进行归一化处理。

如图6所示为本发明中训练门控残差DFSMN神经网络模块的网络结构示意图。首先将多个DFSMN层组成一个DFSMN Block(例如5-10个)，并在DFSMN Block的输入和输出之间增加跳转链接，而后引入两个由DFSMN Block的输入或者输出所控制的门(例如，g_in或者g_out)，这两个门分别控制DFSMN Block的输入和输出组成残差网络时的“贡献度”。示例性地，g_out与g_in都在0-1之间取值，g_out表示残差网络中DFSMN Block输出数据的贡献度，g_in表示残差网络中DFSMN Block输入数据的贡献度。即若g_out越大在最终残差网络的结果中DFSMN Block输出所占比例越大，若g_in越大在最终残差网络的结果中DFSMN Block输入所占比例越大。最后通过在DFSMN Block的输出时引入Batch Norm来进行进一步的归一化。整个过程用公式表示入下：

g_in ^t＝σ(W_inF_in ^t(x^t))

g_out ^t＝σ(W_outF_out ^t(x^t))

y^t＝BN(m^t)

其中x^t是DFSMN Block的输入，g_in ^t是输入门，g_out ^t是输出门；F_in ^t是IC-Net(inputcontrol net)中的DFSMN层，F_out ^t是OC-Net(output control net)中的DFSMN层；F_D ^t代表DFSMN Block中核心的多层DFSMN操作；m^t和y^t分别代表通过Batch Norm前后的输入和输出，σ代表sigmoid函数。

在一些实施例中，本发明还提供一种语音识别系统，包括：

特征提取网络，用于从音频信号中提取声学特征；

字典，用于将所述音素信息转换为相应的文本信息；

语言模型，用于确定对应于所述文本信息的文本内容。

在一些实施例中，本发明还提供一种语音识别方法，包括：采用本发明任一实施例所述的语音识别系统将待识别音频信号识别为相应的文本内容。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音识别方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音识别方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行语音识别方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现语音识别方法。

图7是本申请另一实施例提供的执行语音识别方法的电子设备的硬件结构示意图，如图7所示，该设备包括：

一个或多个处理器710以及存储器720，图7中以一个处理器710为例。

执行语音识别方法的设备还可以包括：输入装置730和输出装置740。

处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器720作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的语音识别方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音识别方法。

存储器720可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音识别装置的使用所创建的数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器720可选包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至语音识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置730可接收输入的数字或字符信息，以及产生与语音识别装置的用户设置以及功能控制有关的信号。输出装置740可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器720中，当被所述一个或者多个处理器710执行时，执行上述任意方法实施例中的语音识别方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种构建声学模型的方法，包括：

预先训练门控残差DFSMN神经网络模块；

顺序连接多个所述门控残差DFSMN神经网络模块；

为顺序连接的多个所述门控残差DFSMN神经网络模块配置输入层和输出层构成所述声学模型。

2.根据权利要求1所述的方法，其特征在于，所述输入层与所述多个门控残差DFSMN神经网络模块之间配置有第一深度神经网络层；所述输出层与所述多个门控残差DFSMN神经网络模块之间配置有第二深度神经网络层。

3.根据权利要求2所述的方法，其特征在于，所述预先训练门控残差DFSMN神经网络模块包括：

顺序连接多个DFSMN神经网络层以构成所述门控残差DFSMN神经网络模块；

在所述门控残差DFSMN神经网络模块的输入端和输出端之间设置由所述门控残差DFSMN神经网络模块的输出控制的第一门控；

在所述门控残差DFSMN神经网络模块的输入端和输出端之间设置由所述门控残差DFSMN神经网络模块的输入控制的第二门控；

根据所述门控残差DFSMN神经网络模块的输入和输出以及所述第一门控和所述第二门控的输出确定输入音频特征的音素信息。

4.根据权利要求3所述的方法，其特征在于，所述门控残差DFSMN神经网络模块的输入端和所述第一门控之间设置有输出控制网络；所述门控残差DFSMN神经网络模块的输入端和所述第二门控之间设置有输入控制网络。

5.根据权利要求4所述的方法，其特征在于，还包括：对所述音素信息进行归一化处理。

6.根据权利要求5所述的方法，其特征在于，所述音素信息由以下公式确定：

g_in ^t＝σ(W_inF_in ^t(x^t))

g_out ^t＝σ(W_outF_out ^t(x^t))

其中，x^t是门控残差DFSMN神经网络模块的输入，g_out ^t是第一门控，g_in ^t是第二门控；F_in ^t是输入控制网络中的DFSMN神经网络层，F_out ^t是输出控制网络中的DFSMN神经网络层；F_D ^t代表门控残差DFSMN神经网络模块中核心的多层DFSMN操作，σ代表sigmoid函数，m^t是经过归一化处理之前的音素信息。

7.一种语音识别系统，包括：

特征提取网络，用于从音频信号中提取声学特征；

根据权利要求1-6中任一项所述方法所构建的声学模型，用于将所述声学特征转换为相应的音素信息；

字典，用于将所述音素信息转换为相应的文本信息；

语言模型，用于确定对应于所述文本信息的文本内容。

8.一种语音识别方法，包括：采用权利要求7所述的语音识别系统将待识别音频信号识别为相应的文本内容。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任意一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6中任意一项所述方法的步骤。