CN112712796A

CN112712796A - 语音识别方法及装置

Info

Publication number: CN112712796A
Application number: CN201911024787.4A
Authority: CN
Inventors: 佟津乐; 朱元婧; 景少玲; 谢海华
Original assignee: Pku Founder Information Industry Group Co ltd; Peking University Founder Group Co Ltd
Current assignee: Pku Founder Information Industry Group Co ltd; Peking University Founder Group Co Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2021-04-27

Abstract

本发明实施例提供一种语音识别方法及装置，通过动态卷积神经网络模型对音频文件进行识别，得到多个特征向量，进而确定出每个特征向量对应的文字标识，最终根据各个文字标识对应的文字得到文本，该语音识别过程中采用动态卷积神经网络而非注意力机，而动态卷积神经网络模型的参数较少，语音识别过程中所需的CPU等计算资源较少，提高识别效率的同时避免发生系统崩溃等。

Description

语音识别方法及装置

技术领域

本发明实施例涉及人工智能(Artificial Intelligence，AI)技术领域，尤其涉及一种语音识别方法及装置。

背景技术

目前，语音识别在智能家居、智能车载、智能客服机器人等方面被越来越广泛的使用，未来将会深入到人们学习、生活和工作的各个环节。

语音识别过程中，预先训练好语音识别模型，并对用户发出的语音进行录制得到音频文件，然后利用语音识别模型对音频文件进行识别，从而将该音频文件转换为文本。常见的语音识别模型包括基于传统循环神经网络(Recurrent Neural Network，RNN)和连接器时间分类法(Connectionist Temporal Classification，CTC)的语音识别模型、基于卷积神经网络(Convolutional Neural Networks，CNN)和CTC的语音识别模型、基于编解码(transfomer encoder-decoder)的神经网络结构的语音识别模型等。

经研究发现：上述的各种语音模型训练过程中需要更多的训练数据，训练出的语音模型的参数较多，导致使用该语音模型进行语音识别时，需要占用较多的CPU等计算资源，容易发生系统崩溃等现象。

发明内容

本发明实施例提供一种语音识别方法及装置，采用动态卷积神经网络而非注意力机，而动态卷积神经网络模型的参数较少，语音识别过程中所需的CPU等计算资源较少，提高识别效率的同时避免发生系统崩溃等。

第一方面，本发明实施例提供一种语音识别方法，包括：

接收用户输入的请求指令，所述请求指令用于请求将音频文件转换为文本；

利用预先训练好的动态卷积神经网络模型对所述音频文件进行识别，以得到至少一个特征向量，所述特征向量包含所述音频文件的音频特征；

确定所述至少一个特征向量中的每个特征向量对应的文字标识ID，不同的文字ID对应不同的文字；

确定各所述文字ID对应的文字，以得到所述文本。

一种可行的设计中，所述利用预先训练好的动态卷积神经网络模型对所述音频文件进行识别，以得到至少一个特征向量之前，还包括：

对训练样本集合中的每一个训练样本提取音频特征，所述训练样本集合包含至少一个训练样本，所述训练样本为包含音频信号的音频文件；

使用所述训练样本集合中训练样本的音频特征进行模型训练，以得到所述动态卷积神经网络模型。

一种可行的设计中，所述动态卷积神经网络模型包括依次连接的全连接层、highway层、动态卷积神经网络层和输出层，所述使用所述训练样本集合中训练样本的音频特征进行模型训练，以得到所述动态卷积神经网络模型，包括：

初始化所述动态卷积神经网络模型的所述全连接层、所述highway层、所述动态卷积神经网络层和所述输出层；

将所述训练样本集合中的训练样本的音频特征输入至初始化后的动态卷积神经网络模型，以对所述全连接层、所述highway层、所述动态卷积神经网络层和所述输出层进行训练，得到输出结果；

利用预设的损失函数处理所述输出结果，得到梯度值；

根据所述梯度值更新所述所述全连接层、所述highway层、所述动态卷积神经网络层和所述输出层的参数，将得到所述动态卷积神经网络模型。

一种可行的设计中，上述的方法还包括：

根据所述输出结果和所述损失函数确定损失值；

判断所述损失值是否小于预设值，若所述损失值小于预设值，则停止模型训练。

一种可行的设计中，所述训练样本依次包含第一时长的静音信号、第二时长的音频信号和第三时长的静音信号，所述对训练样本集合中的每一个训练样本提取音频特征之前，还包括：

对所述训练样本进行静音裁剪，以裁剪掉所述第一时长的静音信号和第三时长的静音信号。

一种可行的设计中，所述音频特征为梅尔特征，所述对训练样本集合中的每一个训练样本提取音频特征，包括：

将所述训练样本包含的一维的音频信号转换为二维的梅尔特征。

一种可行的设计中，所述梅尔特征表示为[T，H]，所述T表示所述梅尔特征的时间维度，所述H表示所述梅尔特征的梅尔特征维度，所述将所述训练样本包含的一维的音频信号转换为二维的梅尔特征之后，还包括：

对所述梅尔特征进行堆叠处理，以得到堆叠后的梅尔特征，所述堆叠后的梅尔特征表示为[T，H×N]，所述N≥1且为整数；

对堆叠后的梅尔特征进行删除处理，以得到堆叠及删除后的梅尔特征，所述堆叠及删除后的梅尔特征表示为[T/M，H×N]，所述M≥1且为整数。

一种可行的设计中，所述将所述训练样本包含的一维的音频信号转换为二维的梅尔特征之后，还包括：

确定所述梅尔特征的均值以及方差；

根据所述均值和所述方差对所述梅尔特征进行归一化处理。

第二方面，本发明实施例提供一种语音识别装置，包括：

接收模块，用于接收用户输入的请求指令，所述请求指令用于请求将音频文件转换为文本；

识别模型，用于利用预先训练好的动态卷积神经网络模型对所述音频文件进行识别，以得到至少一个特征向量，所述特征向量包含所述音频文件的音频特征；

标识确定模块，用于确定所述至少一个特征向量中的每个特征向量对应的文字标识ID，不同的文字ID对应不同的文字；

文字确定模块，用于确定各所述文字ID对应的文字，以得到所述文本。

一种可行的设计中，上述的装置还包括：

训练模块，用于对训练样本集合中的每一个训练样本提取音频特征，使用所述训练样本集合中训练样本的音频特征进行模型训练，以得到所述动态卷积神经网络模型，所述训练样本集合包含至少一个训练样本，所述训练样本为包含音频信号的音频文件。

一种可行的设计中，所述动态卷积神经网络模型包括依次连接的全连接层、highway层、动态卷积神经网络层和输出层，所述训练模块，用于初始化所述动态卷积神经网络模型的所述全连接层、所述highway层、所述动态卷积神经网络层和所述输出层，将所述训练样本集合中的训练样本的音频特征输入至初始化后的动态卷积神经网络模型，以对所述全连接层、所述highway层、所述动态卷积神经网络层和所述输出层进行训练，得到输出结果，利用预设的损失函数处理所述输出结果，得到梯度值，根据所述梯度值更新所述所述全连接层、所述highway层、所述动态卷积神经网络层和所述输出层的参数，以得到所述动态卷积神经网络模型。

一种可行的设计中，上述的装置还包括：

判断模块，用于根据所述输出结果和所述损失函数确定损失值，判断所述损失值是否小于预设值，若所述损失值小于预设值，则触发所述模型训练模块停止模型训练。

一种可行的设计中，所述训练样本依次包含第一时长的静音信号、第二时长的音频信号和第三时长的静音信号，所述装置还包括：

预处理模块，用于在所述训练模块对训练样本集合中的每一个训练样本提取音频特征之前，对所述训练样本进行静音裁剪，以裁剪掉所述第一时长的静音信号和第三时长的静音信号。

一种可行的设计中，所述训练模块，用于将所述训练样本包含的一维的音频信号转换为二维的梅尔特征。

一种可行的设计中，所述梅尔特征表示为[T，H]，所述T表示所述梅尔特征的时间维度，所述H表示所述梅尔特征的梅尔特征维度，所述装置还包括：

预处理模块，用于在所述提取模块将所述训练样本包含的一维的音频信号转换为二维的梅尔特征之后，对所述梅尔特征进行堆叠处理，以得到堆叠后的梅尔特征，所述堆叠后的梅尔特征表示为[T，H×N]，所述N≥1且为整数，对堆叠后的梅尔特征进行删除处理，以得到堆叠及删除后的梅尔特征，所述堆叠及删除后的梅尔特征表示为[T/M，H×N]，所述M≥1且为整数。

一种可行的设计中，预处理模块，用于在所述提取模块将所述训练样本包含的一维的音频信号转换为二维的梅尔特征之后，确定所述梅尔特征的均值以及方差，根据所述均值和所述方差对所述梅尔特征进行归一化处理。

第三方面，本发明实施例提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上第一方面或第一方面的各种可行的实现方式所述的方法。

第四方面，本发明实施例提供一种存储介质，所述存储介质中存储有指令，当其在电子设备上运行时，使得电子设备执行如上第一方面或第一方面的各种可行的实现方式所述的方法。

第五方面，本发明实施例提供一种计算机程序产品，所述计算机程序产品在电子设备上运行时，使得电子设备执行如上第一方面或第一方面的各种可行的实现方式所述的方法。

本发明实施例提供的语音识别方法及装置，通过动态卷积神经网络模型对音频文件进行识别，得到多个特征向量，进而确定出每个特征向量对应的文字标识，最终根据各个文字标识对应的文字得到文本，该语音识别过程中采用动态卷积神经网络而非注意力机，而动态卷积神经网络模型的参数较少，语音识别过程中所需的CPU等计算资源较少，提高识别效率的同时避免发生系统崩溃等。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音识别方法的流程图；

图2是本申请实施例提供的语音识别方法中模型训练和基于训练好的模型进行语音识别的示意图；

图3是本申请实施例提供的语音识别方法中训练样本的示意图；

图4是本申请实施例提供的语音识别方法中对梅尔特征进行堆叠及删除处理的过程示意图；

图5是本申请实施例提供的语音识别方法所适用的动态卷积神经网络模型的结构示意图；

图6是本申请实施例提供的语音识别方法所适用的动态卷积神经网络模型的动态卷积神经网络层的结构示意图；

图7为本发明实施例提供的一种语音识别装置的结构示意图；

图8为本发明实施例提供的另一种语音识别装置的结构示意图；

图9为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，语音作为人工智能产品的主要输入，使得语音识别成为人工智能应用的一个重点，相关算法日新月异，在各个领域如智能家居、智能车载、智能客服机器人等兴起研究的热潮。

通常情况下，语音识别过程中，预先训练好语音识别模型，基于该语音识别模型对音频文件进行识别，以将音频文件包含的音频信号转换为文本。常见的语音识别模型训练过程中，需要大量的训练数据，若训练数据较少，则训练出的语音识别模型不准确，而且，基于大量训练数据训练出的语音识别模型的参数较多，较多参数的语音识别模型占用的CPU等计算资源较多，容易发生系统崩溃现象。此外，基于传统RNN和CTC的语音识别模型存在识别率较低、训练较慢的问题；基于CNN和CTC的语音识别模型存在识别率较低、长序列识别效果不佳的问题；基于transfomer encoder-decoder的神经网络模型存在模型过大、解码慢、长序列识别效果不佳等问题。

有鉴于此，本申请实施例提供一种语音识别方法及装置，通过动态卷积神经网络模型对音频文件进行识别，得到多个特征向量，进而确定出每个特征向量对应的文字标识，最终根据各个文字标识对应的文字得到文本，该语音识别过程中采用动态卷积神经网络而非注意力机，而动态卷积神经网络模型的参数较少，语音识别过程中所需的CPU等计算资源较少，提高识别效率的同时避免发生系统崩溃等。

图1是本申请实施例提供的语音识别方法的流程图，本实施例是从电子设备的角度进行说明的，本实施例包括：

101、接收用户输入的请求指令，所述请求指令用于请求将音频文件转换为文本。

示例性的，电子设备可以是终端设备或服务器等，电子设备上加载有动态神经网络(Dynamic Convolutional Neural Networks，Dynamic CNN))模型，并且，电子设备上预先存储音频文件，例如，电子设备预先对用户发出的语音信号进行录制以得到音频文件并保存；再如，电子设备接收其他电子设备发送的音频文件并保存。需要进行语音识别的时候，用户通过点击操作、触摸操作或语音输入等方式向电子设备输入请求指令，电子设备接收并识别该请求指令。其中，音频文件可以是wav格式的音频文件、mp3格式的音频文件、

102、利用预先训练好的动态卷积神经网络模型对所述音频文件进行识别，以得到至少一个特征向量。

示例性的，电子设备利用预先训练好的Dynamic CNN模型对该音频文件进行识别，以得到至少一个特征向量。识别过程中，电子设备对音频文件提取音频特征，对音频特征进行预处理，之后，将预处理后的音频特征输入至Dynamic CNN模型，由利用Dynamic CNN模型根据预处理后的音频特征得到多个特征向量。其中，特征向量可以为包括以下几种音频特征中的一种或多种：能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征等。

103、确定所述至少一个特征向量中的每个特征向量对应的文字标识ID，不同的文字ID对应不同的文字。

示例性的，每一个特征向量对应一个文字标识(identity，ID)，电子设备根据预处理后的音频信号得到多个特征向量后，确定该些特征向量中每个特征向量对应的文字ID。

104、确定各所述文字ID对应的文字，以得到所述文本。

本申请实施例提供的语音识别方法，通过动态卷积神经网络模型对音频文件进行识别，得到多个特征向量，进而确定出每个特征向量对应的文字标识，最终根据各个文字标识对应的文字得到文本，该语音识别过程中采用动态卷积神经网络而非注意力机，而动态卷积神经网络模型的参数较少，语音识别过程中所需的CPU等计算资源较少，提高识别效率的同时避免发生系统崩溃等。

可选的，上述实施例中，电子设备利用预先训练好的动态卷积神经网络模型对所述音频文件进行训练，以得到至少一个特征向量之前，还对训练样本集合中的每一个训练样本提取音频特征，所述训练样本集合包含至少一个训练样本，对所述训练样本集合中训练样本的音频特征进行模型训练，以得到所述动态卷积神经网络模型。示例性的，可参见图2，图2是本申请实施例提供的语音识别方法中模型训练和基于训练好的模型进行语音识别的示意图。图2包括模型训练过程和基于训练好的模型进行语音识别的过程，下面，对该两个过程分别进行说明。

首先，动态卷积神经网络模型训练过程，该过程包括如下步骤：

201、电子设备获取训练样本。

示例性的，电子设备上预先存储训练样本集合，该训练样本集合包含多个训练样本，每个训练样本为一段音频文件。本步骤中，电子设备利用随机方式等从多个训练样本中取出一个训练样本。

202、对训练样本进行静音裁剪。

录制音频文件的过程中，不可避免的会出现静音片段，若对静音片段进行语音识别或模型训练，则浪费时间和资源。为了避免该些不必要的浪费，需要对训练样本进行裁剪，以裁剪点训练样本中出现的静音片段。通常情况下，静音片段出现在一段音频文件的最前面和/或最后面。示例性的，可参见图3，图3是本申请实施例提供的语音识别方法中训练样本的示意图。

请参照图3，训练样本包括时长为第一时长的静音信号、时长为第二时长的音频信号以及时长为第三时长的静音信号，模型训练过程中，需要裁剪掉该训练样本中第一时长的静音信号和第三时长的静音信号，仅保留第二时长的音频信号。

需要说明的是，虽然上述是以训练样本的音频信号前后均存在静音信号为例对本申请实施例进行详细说明的，然而，本申请实施例并不以此为限制，在其他可行的实现方式中训练样本也可以仅包含第一时长的静音信号和第二时长的音频信号，或者，训练样本也可以仅包含静音信号和第三时长的音频信号等。

203、音频速度变化。

示例性的，电子设备对裁剪掉静音信号的训练样本进行速度变换，例如，加快训练样本中音频信号的播放速度或减缓训练样本中音频信号的播放速度。

204、转为梅尔特征。

示例性的，电子设备将所述训练样本包含的一维的音频信号转换为二维的梅尔特征，该梅尔特征也可以称之为初始梅尔特征。

205、对梅尔特征进行堆叠及删除处理。

示例性的，电子设备对二维的梅尔特征进行拼接和删除处理，以得到新的二维梅尔特征，从而达到减少初始梅尔特征的时间方向上的长度的目的。假设初始的梅尔特征表示为[T，H]，T表示梅尔特征的时间维度，H表示梅尔特征的梅尔特征维度，则电子设备先对该梅尔特征进行堆叠处理，以得到堆叠后的梅尔特征，该堆叠后的梅尔特征表示为[T，H×N]，该N≥1且为整数；之后，电子设备对堆叠后的梅尔特征进行删除处理，以得到堆叠及删除后的梅尔特征，该堆叠及删除后的梅尔特征表示为[T/M，H×N]，该M≥1且为整数。下面，以梅尔特征[T，H]包含9个块，该9个块中的每个块为一个形式为[1，H]的向量、N＝4，M＝3为例，对上述的堆叠及删除处理进行详细说明。示例性的，可参见图4，图4是本申请实施例提供的语音识别方法中对梅尔特征进行堆叠及删除处理的过程示意图。

请参照图4，初始的梅尔特征[T，H]包含9个块，该9个块中的每个块为一个形式为[1，H]的向量，该梅尔特征的时间方向上的时间特征可以是t、t+1、t+2……t+8，堆叠过程中，将t+1、t+2、t+3时刻的特征和t时刻的特征堆叠起来，形成堆叠后的梅尔特征为[T，H×4]。之后，将t+1、t+2、t+3时刻的特征删除，形成堆叠及删除后的梅尔特征[T/3，H×4]。

上述的堆叠及删除处理过程中，若原先特征向量维度为[9，H]，则变换后的特征向量维度为[9，H×4]，如最后一列的t+8所示：如果最后一列少了一个或多个块，则重复最后一个块以补全特征向量。

206、归一化处理。

示例性的，针对梅尔特征K，电子设备对该梅尔特征K进行归一化处理，得到归一化后的梅尔特征K1：K1＝(K-K的均值)/K的方差。其中，梅尔特征K，即为经过堆叠及删除处理的梅尔特征，例如上述的梅尔特征[T/3，H×4]进行归一化处理。均值指梅尔特征中所有点的平均值。例如，梅尔特征[3,4]在时间维度上的长度为3，在梅尔特征维度的长度为4，则该梅尔特征包含3×4＝12个点，该12个点的均值即为梅尔特征[3,4]的均值，同理，电子设备计算该12个点的方差，得到梅尔特征[3,4]的方差。最后，电子设备根据该方差和均值，即可得到归一化后的梅尔特征。

207、增强处理。

示例性的，增强处理是指对数据进行一些操作以提升模型能行的过程。对归一化后的梅尔特征进行增强处理的过程中，电子设备对梅尔特征K1中的一部分使用0进行覆盖，达到进行数据增强的目的。例如，对于梅尔特征K1[T1，H1]，电子设备在T1维度上随机选取一个点t，并随机在0～X(X为预设参数)之间随机选取一个值x，将梅尔特征K1的t～(t+x)之间用0覆盖，即令[t:t+x,H1]＝0；同理，在H1维度进行同样的操作。

208、模型训练。

示例性的，电子设备随机的初始化原始的动态卷积神经网络模型的各个参数之后，将数据增强处理后的梅尔特征输入至动态卷积神经网络模型，以对动态卷积神经网络模型进行模型训练，得到输出结果。

209、利用预设的损失函数得到梯度值。

示例性的，电子设备利用预设的损失函数处理步骤208中的输出结果，得到梯度值。例如，损失函数利用动态卷积神经网络模型的输出结果和该训练样本对应的文字的文字标识ID确定出一个损失值，该损失值通过优化器得到反向梯度，即梯度值，该梯度值被传输至动态卷积神经网络模型，从而对动态卷积神经网络模型的各个参数进行优化。

另外，电子设备还根据损失值判断动态卷积神经网络模型是否已达到最优，即动态卷积神经网络模型的参数已经被调整至最佳状态，若动态卷积神经网络模型达到最优，则停止模型训练。确定态卷积神经网络模型是否达到最优的过程中，电子设备还可以结合字错误率等，例如，电子设备确定出损失值小于预设阈值，字错误率也小于一定的阈值，则说明动态卷积神经网络模型达到左右。其中，100句话总共包含1000个字，动态卷积神经网络模型无法正确识别该1000个字中的20个字，此时，字错误率为2％。假设预设阈值为5％，则说明字错误率满足预设阈值。

210、确定训练样本对应的中文。

211、建立词表。

示例性的，电子设备建立每一个文字与数字ID的一一对应关系，得到词表。之后，该词表被输入至动态卷积神经网络，或者，被保存在电子设备本地等。

上述步骤201～211是训练动态卷积神经网络模型的过程，训练好动态卷积神经网络模型后，将待识别的音频文件输入至该动态卷积神经网络模型，得到多个特征向量，之后，电子设备利用解码器确定至少一个特征向量中的每个特征向量对应的文字标识ID，进而根据各文字ID对应的文字得到文本。

再请参照图2，通过静音裁剪、音频速度变换、堆叠及删除处理、归一化处理和数据增强处理为训练之前的预处理过程，可根据实际需求执行预处理过程中的全部或部分内容。其中，静音裁剪、堆叠及删除处理能够减小语音程度从而提升识别效率。

可选的，上述实施例中，动态卷积神经网络模型包括依次连接的全连接层、highway层、动态卷积神经网络层和输出层，模型训练的过程实质上是对该些层的参数不断的进行调整的过程。示例性的，可参见图5，图5是本申请实施例提供的语音识别方法所适用的动态卷积神经网络模型的结构示意图。

请参照图5，模型训练过程中，步骤207中经过增强处理的梅尔特征被输入至全连接层，由全连接层对该梅尔特征进行处理后得到输出结果，该输出结果作为highway层的输入；然后，highway层的输出结果作为动态卷积神经网络层的输入；接着，动态卷积神经网络层的输出结果作为输出层的输入；最终，输出层的输出结果被输入至损失函数，损失函数利用输出层的输出结果得到梯度值，电子设备根据该梯度值更新全连接层、highway层、动态卷积神经网络层和输出层的参数，将得到动态卷积神经网络模型。

图6是本申请实施例提供的语音识别方法所适用的动态卷积神经网络模型的动态卷积神经网络层的结构示意图。请参照图6，动态卷积神经网络层包括动态cnn(dynamiccnn)核心、第一层正常化(layer normalization)、第一dropout层、一维(1d)cmm、第二层正常化以及第二dropout层。模型训练或预测过程中，highway层的输出结果作为动态cnn核心的输入，动态cnn核心的输出作为第一层正常化的输入，第一层正常化的输出和highway层的输出相加后作为第一dropout层的输入，第一dropout层的输出作为1d cnn的输入，1dcnn的输出作为第二层正常化的输入，第二层正常化的输出和第一dropout的输出相加后作为第二dropout的输入，第二dropout的输出作为输出层的输入。

请参照图6，动态卷积神经网络层需要重复预设次数，例如7次，该7次重复过程中，动态cnn核心的核心大小(kernel size)依次为3、5、7、11、31、31、31。也就是说，一次训练过程中，动态cnn核心需要运行7次。例如，梅尔特征被输入至全连接层后，由全连接层进行运算得到全连接层的输出结果，该全连接层的输出结果被输入至highway层，highway层的输出结果到达动态cnn核心，此时，动态cnn核心的核心大小为7，动态cnn核心的输出结果到达第一层正常化，第一层正常化进行运行后得到的输出结果和highway层的输出结果相加后到达第一dropout层，第一dropout层的输出结果到达1d cnn，1d cnn的输出结果到达第二层正常话化，第二层正常化的输出结果和第一dropout层的输出结果相加后到达第二dropout层，第二dropout层的输出结果继续返回动态cnn核心，此时，动态cnn核心的大小调整为5，之后继续循环上述的运算，直到动态卷积神经网络层重复7次运算。

上述实施例中，采用动态cnn而非注意力机制，语音序列较长并且不需要注意到过远距离的位置。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图7为本发明实施例提供的一种语音识别装置的结构示意图。该语音识别装置100可以通过软件和/或硬件的方式实现。如图7所示，该语音识别装置100包括：

接收模块11，用于接收用户输入的请求指令，所述请求指令用于请求将音频文件转换为文本；

识别模块12，用于利用预先训练好的动态卷积神经网络模型对所述音频文件进行识别，以得到至少一个特征向量，所述特征向量包含所述音频文件的音频特征；

标识确定模块13，用于确定所述至少一个特征向量中的每个特征向量对应的文字标识ID，不同的文字ID对应不同的文字；

文字确定模块14，用于确定各所述文字ID对应的文字，以得到所述文本。

图8为本发明实施例提供的另一种语音识别装置的结构示意图。请参照图8，本实施例提供的语音识别装置100在上述图7的基础上还包括：

训练模块15，用于使用所述训练样本集合中训练样本的音频特征进行模型训练，以得到所述动态卷积神经网络模型，所述训练样本集合包含至少一个训练样本，所述训练样本为包含音频信号的音频文件。

一种可行的设计中，所述动态卷积神经网络模型包括依次连接的全连接层、highway层、动态卷积神经网络层和输出层，所述训练模块15，用于初始化所述动态卷积神经网络模型的所述全连接层、所述highway层、所述动态卷积神经网络层和所述输出层，将所述训练样本集合中的训练样本的音频特征输入至初始化后的动态卷积神经网络模型，以对所述全连接层、所述highway层、所述动态卷积神经网络层和所述输出层进行训练，得到输出结果，利用预设的损失函数处理所述输出结果，得到梯度值，根据所述梯度值更新所述所述全连接层、所述highway层、所述动态卷积神经网络层和所述输出层的参数，以得到动态卷积神经网络模型。

再请参照图8，一种可行的设计中，上述的装置还判断模块16，用于根据所述输出结果和所述损失函数确定损失值，判断所述损失值是否小于预设值，若所述损失值小于预设值，则触发所述模型训练模块15停止模型训练。

再请参照图8，一种可行的设计中，上述的装置还包括：预处理模块17，用于在所述训练模块15对训练样本集合中的每一个训练样本提取音频特征之前，对所述训练样本进行静音裁剪，以裁剪掉所述第一时长的静音信号和第三时长的静音信号。

一种可行的设计中，所述训练模块15，用于将所述训练样本包含的一维的音频信号转换为二维的梅尔特征。

再请参照图8，一种可行的设计中，所述预处理模块17，用于在所述提取模块将所述训练样本包含的一维的音频信号转换为二维的梅尔特征之后，对所述梅尔特征进行堆叠处理，以得到堆叠后的梅尔特征，所述堆叠后的梅尔特征表示为[T，H×N]，所述N≥1且为整数，对堆叠后的梅尔特征进行删除处理，以得到堆叠及删除后的梅尔特征，所述堆叠及删除后的梅尔特征表示为[T/M，H×N]，所述M≥1且为整数。

一种可行的设计中，所述预处理模块17，用于在所述提取模块将所述训练样本包含的一维的音频信号转换为二维的梅尔特征之后，确定所述梅尔特征的均值以及方差，根据所述均值和所述方差对所述梅尔特征进行归一化处理。

图9为本发明实施例提供的一种电子设备的结构示意图。如图9所示，该电子设备200包括：

至少一个处理器21和存储器22；

所述存储器22存储计算机执行指令；

所述至少一个处理器21执行所述存储器22存储的计算机执行指令，使得所述至少一个处理器21执行如上所述的音频器件测试方法。

可选地，该电子设备200还包括通信部件23。其中，处理器21、存储器22以及通信部件23可以通过总线24连接。

本发明实施例还提供一种存储介质，所述存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上所述的语音识别方法。

本发明实施例还提供一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得电子设备执行如上述语音识别方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

确定各所述文字ID对应的文字，以得到所述文本。

2.根据权利要求1所述的方法，其特征在于，所述利用预先训练好的动态卷积神经网络模型对所述音频文件进行识别，以得到至少一个特征向量之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述动态卷积神经网络模型包括依次连接的全连接层、highway层、动态卷积神经网络层和输出层，所述使用所述训练样本集合中训练样本的音频特征进行模型训练，以得到所述动态卷积神经网络模型，包括：

利用预设的损失函数处理所述输出结果，得到梯度值；

根据所述梯度值更新初始化后的全连接层、所述highway层、所述动态卷积神经网络层和所述输出层的参数，以得到所述动态卷积神经网络模型。

4.根据权利要求3所述的方法，其特征在于，还包括：

根据所述输出结果和所述损失函数确定损失值；

5.根据权利要求2～4任一项所述的方法，其特征在于，所述训练样本依次包含第一时长的静音信号、第二时长的音频信号和第三时长的静音信号，所述对训练样本集合中的每一个训练样本提取音频特征之前，还包括：

6.根据权利要求2～4任一项所述的方法，其特征在于，所述音频特征为梅尔特征，所述对训练样本集合中的每一个训练样本提取音频特征，包括：

7.根据权利要求6所述的方法，其特征在于，所述梅尔特征表示为[T，H]，所述T表示所述梅尔特征的时间维度，所述H表示所述梅尔特征的梅尔特征维度，所述将所述训练样本包含的一维的音频信号转换为二维的梅尔特征之后，还包括：

8.根据权利要求6所述的方法，其特征在于，所述将所述训练样本包含的一维的音频信号转换为二维的梅尔特征之后，还包括：

确定所述梅尔特征的均值以及方差；

根据所述均值和所述方差对所述梅尔特征进行归一化处理。

9.一种语音识别装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：处理器、存储器以及计算机程序；其中，所述计算机程序被存储在所述存储器中，并且被配置为由所述处理器执行，所述计算机程序包括用于执行如权利要求1-8任一项所述的方法的指令。

11.一种存储介质，其特征在于，所述存储介质中存储有指令，当其在电子设备上运行时，使得电子设备执行如权利要求1-8任一项所述的方法。