CN112687263A

CN112687263A - 语音识别神经网络模型及其训练方法、语音识别方法

Info

Publication number: CN112687263A
Application number: CN202110264825.4A
Authority: CN
Inventors: 司马华鹏; 吴海娥; 汤毅平
Original assignee: Nanjing Guiji Intelligent Technology Co ltd
Current assignee: Nanjing Guiji Intelligent Technology Co ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-04-20
Anticipated expiration: 2041-03-11
Also published as: CN112687263B

Abstract

本申请实施例提供了一种语音识别神经网络模型及其训练方法、语音识别方法，建立包含神经网络滤波器、神经网络编码器、激活函数输出层的语音识别神经网络模型，其中神经网络滤波器包括可参数化的带通滤波器，可参数化的带通滤波器是对卷积带通滤波器的训练参数进行训练后得到的；神经网络滤波器对目标音频信号进行特征提取，并输出目标音频信号的局部特征向量，以至少解决相关技术中基于CNN的语音识别方法导致CNN的模型参数量过大且难以优化、以及语音识别性能受限的问题。

Description

语音识别神经网络模型及其训练方法、语音识别方法

技术领域

本申请涉及语音识别技术领域，具体而言，涉及一种语音识别神经网络模型及其训练方法、语音识别方法。

背景技术

在深度学习快速发展的背景下，基于深度神经网络的语音识别技术也被广泛的应用于各行各业。迄今为止，大多数基于深度神经网络的语音识别技术实现过程中，主要是基于研发人员人工设计的特征，如FBANK、MFCC或频谱特征等特征进行相应的神经网络模型的训练以及语音识别。上述人工设计的特征通常以类似人耳对声音频谱的非线性响应方式对音频进行处理，不能保证对语音识别任务都是最优的。

对此，相关技术中，不少研究者直接将语音数据送入至卷积神经网络（Convolutional Neural Networks，简称为CNN）模型中处理，较于前述人工设计特征的方式，此方式可保留更多的信息。然而，由于语音数据的维度很高，直接采用上述标准CNN对语音数据中的信息进行拟合的过程中，拟合速度过慢且拟合能力有限，相关技术中对此仅能通过增加更多层的CNN或增大kernel size参数来解决。

上述两种方式都会使得CNN的模型参数量过大，进而导致模型难以优化，致使其在应用过程中的语音识别性能有所受限。

针对相关技术中，基于CNN的语音识别方法导致CNN的模型参数量过大且难以优化、以及语音识别性能受限的问题，目前尚未有有效的解决办法。

发明内容

本申请实施例提供了一种语音识别神经网络模型及其训练方法、语音识别方法，以至少解决相关技术中基于CNN的语音识别方法导致CNN的模型参数量过大且难以优化、以及语音识别性能受限的问题。

在本申请的一个实施例中，提出了一种语音识别神经网络模型，所述模型至少包括神经网络滤波器、神经网络编码器、激活函数输出层；所述神经网络滤波器包括可参数化的带通滤波器，所述可参数化的带通滤波器是对卷积带通滤波器的训练参数进行训练后得到的，所述可参数化的带通滤波器配置为，对目标音频信号进行特征提取，以输出所述目标音频信号的第一特征向量，其中，所述第一特征向量为所述目标音频信号的局部特征向量；所述神经网络编码器配置为，输入所述第一特征向量，对所述第一特征向量进行深度学习后输出所述目标音频信号的第二特征向量，其中，所述第二特征向量为所述目标音频信号的局部特征向量，所述第二特征向量对应于所述神经网络编码器识别后的文本向量；所述激活函数输出层配置为，输入所述第二特征向量，并至少根据所述第二特征向量输出所述目标音频信号对应的所述目标文本。

在本申请的一个实施例中，还提出了一种语音识别神经网络模型的训练方法，应用于上述语音识别神经网络模型，所述训练方法包括：获取训练数据，其中，所述训练数据包括第一音频信号以及对应的第一标注文本；构建包含神经网络滤波器、神经网络编码器、激活函数输出层的初始神经网络模型，其中，所述神经网络滤波器包括可参数化的带通滤波器，所述可参数化的带通滤波器是对卷积带通滤波器的训练参数进行训练后得到的；使用所述训练数据训练所述初始神经网络模型的训练参数，并通过损失函数在训练过程中优化所述初始神经网络模型，得到目标神经网络模型。

在本申请的一个实施例中，还提出了一种语音识别方法，运用上述语音识别神经网络模型，所述方法包括：将目标音频输入所述语音识别神经网络模型；通过所述语音识别神经网络模型输出所述目标音频对应的目标数值或目标概率分布，其中，所述目标数值对应于目标文本，所述目标概率分布对应于多个目标文本对应的概率分布。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本申请的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例，建立包含神经网络滤波器、神经网络编码器、激活函数输出层的语音识别神经网络模型，其中神经网络滤波器包括可参数化的带通滤波器，可参数化的带通滤波器是对卷积带通滤波器的训练参数进行训练后得到的，神经网络滤波器对目标音频信号进行特征提取，以输出目标音频信号的局部特征向量，解决了相关技术中基于CNN的语音识别方法导致CNN的模型参数量过大且难以优化、以及语音识别性能受限的问题，通过神经网络滤波器的训练和自身学习有效获取目标音频信号中少量关键参数的特征向量，降低了语音识别神经网络模型的参数量，提高了语音识别的精准度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例的一种语音识别神经网络模型的训练方法的移动终端的硬件结构框图；

图2是根据本申请实施例的语音识别神经网络模型一种可选的结构示意图；

图3是根据本申请实施例的神经网络编码器一种可选的结构示意图；

图4是根据本申请实施例的卷积模块一种可选的结构示意图；

图5是根据本申请实施例语音识别神经网络模型的训练方法一种可选的流程图；

图6是根据本申请实施例语音识别方法一种可选的流程图；

图7是根据本申请实施例的一种可选的电子装置结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本申请实施例的一种语音识别神经网络模型的训练方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个（图1中仅示出一个）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的语音识别神经网络模型的训练方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

图2是根据本申请实施例的语音识别神经网络模型一种可选的结构示意图，如图2所示，本申请实施例提供了一种语音识别神经网络模型，模型至少包括神经网络滤波器、神经网络编码器、激活函数输出层；神经网络滤波器包括可参数化的带通滤波器，所述可参数化的带通滤波器是对卷积带通滤波器的训练参数进行训练后得到的，所述可参数化的带通滤波器配置为，对目标音频信号进行特征提取，以输出目标音频信号的第一特征向量，其中，第一特征向量为目标音频信号的局部特征向量；神经网络编码器配置为，输入第一特征向量，对第一特征向量进行深度学习后输出目标音频信号的第二特征向量，其中，第二特征向量为目标音频信号的局部特征向量，第二特征向量对应于神经网络编码器识别后的文本向量；激活函数输出层配置为，输入第二特征向量，并至少根据第二特征向量输出目标音频信号对应的目标文本。

需要说明的是，本申请实施例中涉及的神经网络滤波器可以是可参数化的带通滤波器，可参数化的带通滤波器可以是SincNet卷积滤波器或其他任何可训练的卷积滤波器经过训练后得到的，通过构建可参数化的带通滤波器可使改进后的神经网络模型只关注语音数据中对性能有重要作用的滤波器参数，从而直接能从原始时域波形中有针对性的提取出音频中关键的特征且将参数量大大减少。本申请实施例中涉及的神经网络编码器可以是Transformer语音识别网络模型或将CNN与Transformer网络结合到一个模型ConformerEncoder模型，以参数有效的方式对音频序列的局部和全局相依性进行建模，使得语音识别性得到进一步的提升。本申请实施例中涉及的激活函数输出层可以是Softmax函数层或其他逻辑回归类函数。

可选的实施方式中，卷积带通滤波器的训练参数至少包括低截止频率以及高截止频率。

需要说明的是，对SincNet训练后，原始时域语音，即原始的音频信号，输入至SincNet进行特征处理，可以提取出反映语音数据有意义的关键特征。有意义的关键特征泛指可突出语音数据的特点的特征，诸如音色、音调，响度等，较于FBANK（FilterBank，以类似于人耳的方式对音频进行前端处理）、MFCC（MFCC特征的提取是在FBank特征的基础上再进行离散余弦变换）或频谱特征等，该类关键特征可更好地表征语音数据。

可选的实施方式中，本申请实施例涉及的神经网络编码器可以是基于Conformer网络的声学模型，包括：依次连接的数据增强层、卷积子采样层、线性层、筛选输出层、识别模块层。

数据增强层配置为，接收第一特征向量的输入，对第一特征向量进行增强处理后输入卷积子采样层；

卷积子采样层配置为，将数据增强层输出的特征向量降维处理后输入线性层；

线性层配置为，将卷积子采样层输出的特征向量转换为与识别模块层匹配的维度；

筛选输出层配置为，将线性层输出的特征向量进行筛选后输入识别模块层；

识别模块层配置为，将筛选输出层输出的特征向量转换为目标音频信号的第二特征向量。

可选的实施方式中，识别模块层包括：依次连接的第一前馈模块、多头注意力模块、卷积模块和第二前馈模块，其中，第一前馈模块、多头注意力模块、卷积模块和第二前馈模块上分别设置残差单元。

图3是根据本申请实施例的神经网络编码器一种可选的结构示意图，如图3所示，本申请实施例的神经网络编码器可以是基于Conformer网络的声学模型，主要由卷积子采样层（Convolution subsampling layer）、线性层（Linear）、退出层（Dropout，相当于筛选输出层）以及多个整合块（Conformer blocks，相当于识别模块层）组成。此外，Convolutionsubsampling layer层之前添加有SpecAug数据增强层，用于丰富数据，提高模型的鲁棒性。

上述声学模型中，Convolution subsampling layer卷积子采样层主要用于降低特征数量，并从而减少参数数量，后接Linear线性层将特征进行转换成Conformer blocks模块的输入形式，添加Dropout层以防止模型过拟合，以提升模型泛化能力。Softmax层作为最后一层用于分类出序列所属类别。Conformer blocks模块作为 Conformer网络最为关键的部分，可以使的网络学习的更好。

上述Conformer blocks层由两个前馈模块（Feedforward module），多头注意力模块（Multi-head self attention Module），卷积模块（Convolution Module），共计四个Module构成，每个Module上均设置有残差单元，进而使得网络训练过程中避免梯度消失，将参数传递的更深，进而学习到更丰富的信息，最后经Layernorm层输出。

上述Feedforward module前馈网络负责用于接收上一层Dropout层的输出，并输出给下一层 Multi-head self attention Module，使得信息向下传播。 Multi-head selfattention Module多头注意力机制结构将模型分为多个头，形成多个子空间，可以让模型去关注不同方面的信息，最后合并，如此即可扩展模型集中于不同位置的能力，后接Convolution Module卷积模块擅长提取局部特征的优势，从而实现了多空间和局部特征两个方面的最佳。上述Multi-head self attention Module多头注意力机制和Feedforwardmodule前馈网络利用了Transformer网络主要核心思想，通过学习输入语音特征不同相对位置和频率的关系表示，让模型去关注不同方面的信息，最后再将各个方面的信息综合起来，这样有助于网络捕捉到更丰富的特征/信息。上述Convolution Module利用了卷积擅长提取局部特征的优势，其主要由pre-norm残差，point-wise卷积和线性门单元(GatedLinear Unit)等组成。

图4是根据本申请实施例的卷积模块一种可选的结构示意图，如图4所示，Convolution Module的构成依次包括：

Layernorm—Pointwise Convolution—Glu Activation—1D DepthwiseConvolution—BatchNorm—Swish Activation—Pointwise Convolution—Dropout。

以上Conformer blocks的优势在于，在Transformer结构上用Macaron-style式的两个half-step Feedforward代替一个Feedforward module前馈网络，并将ConvolutionModule模块放在Multi-head self attention Module后面，此设计相比其他网络有更好的表现。

根据本申请实施例的又一个方面，还提供了一种语音识别神经网络模型的训练方法，应用于上述语音识别神经网络模型。图5是根据本申请实施例语音识别神经网络模型的训练方法一种可选的流程图，如图5所示，所述方法包括：

步骤S502，获取训练数据，其中，训练数据包括第一音频信号以及对应的第一标注文本；

步骤S504，构建包含神经网络滤波器、神经网络编码器、激活函数输出层的初始神经网络模型，其中，神经网络滤波器包括可参数化的带通滤波器，可参数化的带通滤波器是对卷积带通滤波器的训练参数进行训练后得到的；

步骤S506，使用训练数据训练初始神经网络模型的训练参数，并通过损失函数在训练过程中优化初始神经网络模型，得到目标神经网络模型。

需要说明的是，在构建好初始语音识别神经网络模型后，需要使用训练数据对构建好的初始模型进行训练，主要是对初始模型内的训练参数进行训练，通过损失函数不断对初始模型进行优化，最终得到目标语音识别神经网络模型。在对初始模型训练的过程中，主要是针对神经网络滤波器的训练参数进行训练，使得训练后的神经网络滤波器能够有效提取音频信号中的关键参数特征，同时要对神经网络编码器的训练参数进行训练，使其能够有效识别音频信号对应的文本。训练数据可以是有对应关系的语音/音频信号和文本/标签。

可选的实施方式中，对于神经网络滤波器的训练可以通过以下步骤实现：

S1，设定初始神经网络模型的训练参数的初始值，其中，初始神经网络模型的训练参数包括：卷积带通滤波器的训练参数以及神经网络编码器的训练参数，卷积带通滤波器的训练参数至少包括：低截止频率和高截止频率；

S2，将第一音频信号输入卷积带通滤波器，经过神经网络编码器，通过激活函数输出层输出第一预测文本；

S3，使用损失函数计算所述第一预测文本和第一标注文本的差值，以确定初始神经网络模型的第一损失值；

S4，确定第一损失值相对于初始神经网络模型的训练参数的第一梯度，并将初始神经网络模型的训练参数沿第一梯度进行反向调整；

S5，通过迭代处理对初始神经网络模型的训练参数进行多次反向调整，直至初始神经网络模型的损失值小于预设阈值，得到目标神经网络模型。

需要说明的是，本申请实施例中可以选择以CTC loss作为最终目标函数（相当于损失函数）。CTC loss相比于其他loss而言，能够较为灵活的计算损失进行梯度下降处理，并可直接建立发音映射表或基于常用字替换表就可以直接训练，可实现实时的在线语音识别。

可选的实施方式中，所述方法还包括：使用窗函数对卷积带通滤波器进行加窗处理，其中，窗函数包括以下之一：Hann函数、Balckman函数、Kaiser函数。

可选的实施方式中，所述方法还包括：使用验证数据对目标神经网络模型进行优化，其中，验证数据包括第二音频信号以及对应的第二标注文本。

可选的实施方式中，使用验证数据对目标神经网络模型进行优化包括：

S1，将第二音频信号输入目标神经网络模型，通过激活函数输出层输出第二预测文本；

S2，使用损失函数计算第二预测文本和第二标注文本的差值，以确定目标神经网络模型的第二损失值；

S3，确定第二损失值相对于目标神经网络模型的训练参数的第二梯度，并将目标神经网络模型的训练参数沿第二梯度进行反向调整。

以SincNet卷积滤波器作为神经网络滤波器为例，以下对SincNet卷积滤波器的网络结构进行说明。

SincNet卷积滤波器包括Sinc卷积层，此处Sinc卷积层是卷积滤波器里面的第一层，其他层是标准卷积，训练主要是得到Sinc卷积层里面的f1和f2参数，即带通滤波器的低截止频率和高截止频率。Sinc卷积层是一种可训练的有限脉冲响应滤波器FIR，Sinc卷积层可表示为：

上述

是滤波器的输出，

为滑动窗口内的音频信号，

为长度为L的滤波器，

为时域变量，

为位移的量，

大小是从[0,L-1]依次取值，sinc卷积公式是随着

的不断增大，然后累积求和。在标准CNN中，L个滤波器的参数可以从数据学习，在SincNet 的网络结构中，将

预定义为函数为

，则上述公式变为：

其中，

为一种矩形带通滤波器，在频域中，带通滤波器的幅值可以写成两个低通滤波器的差值

，则有：

上述

和

为训练参数，分别为带通滤波器的低截止频率和高截止频率，rect为频域矩形窗函数，在此为线性函数；与之对应的

中，时域信号n对应频域信号f，参数

对应的为

和

。经逆傅里叶变换后，最终得到

的时域为：

其中sinc函数定义为：

。

在传统的信号处理方法中，加窗可以减弱频谱泄漏效应，本发明中，同样可对滤波器进行加窗处理，加窗后的滤波器表达为：

其中，

为窗函数，可以为Hamming，Balckman和Kaiser等，优选采用Hamming 窗。上述

可表达为：

需要说明的是，SincNet中，Sinc卷积层的特性是实现SincNet在本发明中作用的关键。具体而言，Sinc卷积层中，在确定矩形带通滤波器的幅值过程中，参数f1（相当于

）与f2（相当于

）是可以通过优化算法训练得到的，Sinc卷积层中的参数f1与f2与声学模型中的其它参数一并进行训练，其训练过程如下：

实现过程中，可通过预设设置的训练集对Sinc卷积层进行训练，设定训练集的数据为X，标签为Y1，此时Sinc卷积层中的f1与f2为初始值，将X输入Sinc卷积层后得到预测值Y2。

S1.1，设定训练集中的语音数据为X，对应的文字内容为Y1；将语音数据X输入至本发明中的网络构架中，输出预测值Y2（此时，Sinc卷积层中的f1与f2为预设的初始值）；

S1.2，计算Y1与Y2之间的偏差，以确定f1与f2为初始值状态下网络构架的损失值；

S1.3，计算上述损失值相对于f1与f2的梯度，并将f1与f2沿梯度进行反向调整，以减小损失值（该过程可称为梯度下降）；

S1.4，通过多次迭代，即多次对f1与f2进行梯度下降，以令网络构架的损失值小于预设阈值；将此时的f1与f2作为最终的f1与f2，进而得到相应的Sinc卷积层，以得到完成训练的SincNet。

通过上述训练得到的SincNet，一方面可令整体网络的损失足够小，进而达到显著提升检测效率的效果，另一方面，由于f1与f2是在网络训练中通过优化算法得到的，即f1与f2的确定过程是已知的，在后期工程实现过程中可便于工程人员进行调参或针对性的优化，进一步改善产品处理的效率。相较之下，相关技术中的标准CNN的相关参数是固定的，工程人员并不知道相关参数的由来，故很难进行适配性的工程实现。

另一方面，上述SincNet的运用可极大减少了卷积层的参数量，例如，对于F个长度为L的滤波器，标准CNN中对应的参数量为F*L；假设滤波器的长度为2L，则标准CNN中对应的参数量会增加一倍；而对于F个SincNet，其参数量始终为2F（即上述f1与f2）。因此，本申请实施例中，SincNet的运用会令模型整体的参数量显著减少。

对于语音识别神经网络模型中的其他训练参数的训练过程同上，此处不再赘述。

需要说明的是，在实际训练过程中，语音识别神经网络模型中的所有训练参数是同时进行训练的，即，神经网络滤波器和神经网络编码器的训练参数是同时进行训练的，以SincNet卷积滤波器、基于 Conformer 的声学模型、CTC loss函数组成的语音识别神经网络模型为例，训练过程如下：

S1：设定训练集的数据为X，实际标签为Y，将X直接输入到长度L=401个时域样本，80个滤波器的SincNet卷积滤波器中，SincNet卷积滤波器具体参数见表1，提取出音频特征；

S2：将S1提取的音频特征，送入到基于 Conformer 的声学模型中训练，具体参数见表1，并经最后softmax层输出预测标签类别Y1；

S3：用CTC loss计算实际标签Y和预测标签Y1之间的偏差，并用Adam（learning_rate=1e-4 ，beta_1= 0.9，beta_2= 0.98 ，epsilon=1e-6）优化器进行优化，不断更新语音识别神经网络模型的参数；

S4：通过验证集对S3中训练得到的语音识别声学模型进行验证，并不断优化模型参数，通过10个epochs不断迭代，使得loss值下降到 1e-4接近收敛，得到最终的模型参数，其中包括SincNet的f1和f2参数。

表1 网络训练参数

将本申请实施例中的语音识别声学模型在公开中文数据集Aishell-1上验证，并计算cer字错误率，将cer与其他方法进行对比，实验结果见表2。

表2

根据本申请实施例的又一个方面，还提供了一种语音识别方法，应用于上述语音识别神经网络模型。图6是根据本申请实施例语音识别方法一种可选的流程图，如图6所示，所述方法包括：

步骤S602，将目标音频输入语音识别神经网络模型；

步骤S604，通过语音识别神经网络模型输出目标音频对应的目标数值或目标概率分布，其中，目标数值对应于目标文本，目标概率分布对应于多个目标文本对应的概率分布。

本申请实施例一方面将SincNet卷积滤波器作为前端音频特征提取，能直接从原始音频提取出重要有意义的特征，而不需要将时域音频转为频域再做特征提取，同时较标准卷积有更快速度和更少参数的优点，且利用Conformer能对音频序列的局部和全局相依性进行建模，从而得到既能减少参数又能增加非线性能力的优势，进一步能提高语音识别的性能。

根据本申请实施例的又一个方面，还提供了一种用于实施上述语音识别神经网络模型的训练方法的电子装置，上述电子装置可以但不限于应用于服务器中。如图7所示，该电子装置包括存储器702和处理器704，该存储器702中存储有计算机程序，该处理器704被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取训练数据，其中，训练数据包括第一音频信号以及对应的第一标注文本；

S2，构建包含神经网络滤波器、神经网络编码器、激活函数输出层的初始神经网络模型；

S3，使用训练数据训练神经网络滤波器和神经网络编码器的训练参数，并通过损失函数在训练过程中优化初始神经网络模型，得到目标神经网络模型。

S1，将目标音频输入语音识别神经网络模型；

S2，通过语音识别神经网络模型输出目标音频对应的目标数值或目标概率分布，其中，目标数值对应于目标文本，目标概率分布对应于多个目标文本对应的概率分布。

可选地，本领域普通技术人员可以理解，图7所示的结构仅为示意，电子装置也可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌上电脑以及移动互联网设备（Mobile Internet Devices，MID）、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图7中所示更多或者更少的组件（如网络接口等），或者具有与图7所示不同的配置。

其中，存储器702可用于存储软件程序以及模块，如本申请实施例中的语音识别神经网络模型的训练方法和装置对应的程序指令/模块，处理器704通过运行存储在存储器702内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音识别神经网络模型的训练方法。存储器702可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器702可进一步包括相对于处理器704远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器702具体可以但不限于用于储存语音识别神经网络模型的训练方法的程序步骤。作为一种示例，如图7所示，上述存储器702中可以但不限于包括上述语音识别神经网络模型中的神经网络滤波器、神经网络编码器、激活函数输出层等。此外，还可以包括但不限于上述语音识别神经网络模型中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置706包括一个网络适配器（Network Interface Controller，NIC），其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置706为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器708，用于显示可疑帐号的告警推送；和连接总线710，用于连接上述电子装置中的各个模块部件。

本申请的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，将目标音频输入语音识别神经网络模型；

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（Random Access Memory，RAM）、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音识别神经网络模型，其特征在于，所述模型至少包括神经网络滤波器、神经网络编码器、激活函数输出层；

所述神经网络滤波器包括可参数化的带通滤波器，所述可参数化的带通滤波器是对卷积带通滤波器的训练参数进行训练后得到的，所述可参数化的带通滤波器配置为，对目标音频信号进行特征提取，以输出所述目标音频信号的第一特征向量，其中，所述第一特征向量为所述目标音频信号的局部特征向量；

所述神经网络编码器配置为，输入所述第一特征向量，对所述第一特征向量进行深度学习后输出所述目标音频信号的第二特征向量，其中，所述第二特征向量为所述目标音频信号的局部特征向量，所述第二特征向量对应于所述神经网络编码器识别后的文本向量；

所述激活函数输出层配置为，输入所述第二特征向量，并至少根据所述第二特征向量输出所述目标音频信号对应的所述目标文本。

2.根据权利要求1所述的语音识别神经网络模型，其特征在于，所述卷积带通滤波器的训练参数至少包括：所述卷积带通滤波器的低截止频率和高截止频率。

3.根据权利要求1所述的语音识别神经网络模型，其特征在于，所述神经网络编码器包括：依次连接的数据增强层、卷积子采样层、线性层、筛选输出层、识别模块层；

所述数据增强层配置为，接收所述第一特征向量的输入，对所述第一特征向量进行增强处理；

所述卷积子采样层配置为，对所述数据增强层输出的特征向量进行降维处理；

所述线性层配置为，将所述卷积子采样层输出的特征向量转换为与所述识别模块层匹配的维度；

所述筛选输出层配置为，对所述线性层输出的特征向量进行筛选；

所述识别模块层配置为，将所述筛选输出层输出的特征向量转换为所述目标音频信号的第二特征向量。

4.根据权利要求3所述的语音识别神经网络模型，其特征在于，所述识别模块层包括：

依次连接的第一前馈模块、多头注意力模块、卷积模块和第二前馈模块，其中，所述第一前馈模块、所述多头注意力模块、所述卷积模块和所述第二前馈模块上分别设置残差单元。

5.一种语音识别神经网络模型的训练方法，其特征在于，应用于权利要求1至4任一项所述的语音识别神经网络模型；所述方法包括：

获取训练数据，其中，所述训练数据包括第一音频信号以及对应的第一标注文本；

构建包含神经网络滤波器、神经网络编码器、激活函数输出层的初始神经网络模型，其中，所述神经网络滤波器包括可参数化的带通滤波器，所述可参数化的带通滤波器是对卷积带通滤波器的训练参数进行训练后得到的；

使用所述训练数据训练所述初始神经网络模型的训练参数，并通过损失函数在训练过程中优化所述初始神经网络模型，得到目标神经网络模型。

6.根据权利要求5所述的方法，其特征在于，所述使用所述训练数据训练所述初始神经网络模型的训练参数，并通过损失函数在训练过程中优化所述初始神经网络模型，包括：

设定所述初始神经网络模型的训练参数的初始值，其中，所述初始神经网络模型的训练参数包括：所述卷积带通滤波器的训练参数以及所述神经网络编码器的训练参数，所述卷积带通滤波器的训练参数至少包括：所述卷积带通滤波器的低截止频率和高截止频率；

将所述第一音频信号输入所述卷积带通滤波器，经过所述神经网络编码器，通过所述激活函数输出层输出第一预测文本；

使用所述损失函数计算所述第一预测文本和所述第一标注文本的差值，以确定所述初始神经网络模型的第一损失值；

确定所述第一损失值相对于所述初始神经网络模型的训练参数的第一梯度，并将所述初始神经网络模型的训练参数沿所述第一梯度进行反向调整；

通过迭代处理对所述初始神经网络模型的训练参数进行多次反向调整，直至所述初始神经网络模型的损失值小于预设阈值，得到所述目标神经网络模型。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

使用窗函数对所述卷积带通滤波器进行加窗处理，其中，所述窗函数包括以下之一：Hann函数、Balckman函数、Kaiser函数。

8.根据权利要求5所述的方法，其特征在于，所述方法还包括：

使用验证数据对所述目标神经网络模型进行优化，其中，所述验证数据包括第二音频信号以及对应的第二标注文本。

9.根据权利要求8所述的方法，其特征在于，所述使用验证数据对所述目标神经网络模型进行优化包括：

将所述第二音频信号输入所述目标神经网络模型，通过所述激活函数输出层输出第二预测文本；

使用损失函数计算所述第二预测文本和所述第二标注文本的差值，以确定所述目标神经网络模型的第二损失值；

确定所述第二损失值相对于所述目标神经网络模型的训练参数的第二梯度，并将所述目标神经网络模型的训练参数沿所述第二梯度进行反向调整。

10.一种语音识别方法，其特征在于，运用权利要求1至4任一项所述的语音识别神经网络模型；所述方法包括：

将目标音频输入所述语音识别神经网络模型；

通过所述语音识别神经网络模型输出所述目标音频对应的目标数值或目标概率分布，其中，所述目标数值对应于目标文本，所述目标概率分布对应于多个目标文本对应的概率分布。

11.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求5至10任一项中所述的方法。

12.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求5至10任一项中所述的方法。