CN110197666B

CN110197666B - 一种基于神经网络的语音识别方法、装置

Info

Publication number: CN110197666B
Application number: CN201910463635.8A
Authority: CN
Inventors: 赵艮平; 王理; 黄国恒; 赵芝茵
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2022-05-10
Anticipated expiration: 2039-05-30
Also published as: CN110197666A

Abstract

本申请公开了一种语音识别方法、装置及一种电子设备和计算机可读存储介质，该方法包括：确定儿童语音的频率范围，并获取所述频率范围的语音数据；将所述语音数据划分为多个频带，确定每个所述频带对应的带通滤波器，并利用每个所述频带对应的带通滤波器提取每个所述频带的语音数据的特征；提取所述特征的幅度谱，并利用大于预设值的幅度谱训练卷积神经网络，以便利用训练完成的卷积神经网络进行儿童语音的识别。本申请提供的语音识别方法，不仅解决了儿童语音数据的缺乏，减少了儿童语音数据的需求量，提高了语音识别的准确率，而且由于去除了成年人的频率，去除了噪音的干扰，减少了训练网络的时间。

Description

一种基于神经网络的语音识别方法、装置

技术领域

本申请涉及语音识别技术领域，更具体地说，涉及一种基于神经网络的语音识别方法、装置及一种电子设备和一种计算机可读存储介质。

背景技术

音高就是声音的高低，它决定于频率。长而粗厚的发音体振动慢，短而细薄的发音体振动快。语音中音的高低和人的声带的长短、厚薄、松紧有关。由于儿童说话时的声音和成年人不一样，导致普通的语音识别模型在用来识别儿童语音的时候错误率高，无法接收到正确的反馈。

因此，如何提高儿童语音的识别准确度是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的在于提供一种基于神经网络的语音识别方法、装置及一种电子设备和一种计算机可读存储介质，提高了儿童语音的识别准确度。

为实现上述目的，本申请提供了一种基于神经网络的语音识别方法，包括：

确定儿童语音的频率范围，并获取所述频率范围的语音数据；

将所述语音数据划分为多个频带，确定每个所述频带对应的带通滤波器，并利用每个所述频带对应的带通滤波器提取每个所述频带的语音数据的特征；

提取所述特征的幅度谱，并利用大于预设值的幅度谱训练卷积神经网络，以便利用训练完成的卷积神经网络进行儿童语音的识别。

其中，所述确定每个所述频带对应的带通滤波器，包括：

确定带通滤波器模型，并确定所述带通滤波器模型中每个所述频带对应的参数。

其中，所述参数包括采样大小。

其中，所述提取所述特征的幅度谱，包括：

利用每个所述带通滤波器输出的实值信号提取所述特征的幅度谱。

其中，所述实值信号包括全波整流信号和半波整流信号。

为实现上述目的，本申请提供了一种基于神经网络的语音识别装置，包括：

获取模块，用于确定儿童语音的频率范围，并获取所述频率范围的语音数据；

提取模块，用于将所述语音数据划分为多个频带，确定每个所述频带对应的带通滤波器，并利用每个所述频带对应的带通滤波器提取每个所述频带的语音数据的特征；

训练模块，用于提取所述特征的幅度谱，并利用大于预设值的幅度谱训练卷积神经网络，以便利用训练完成的卷积神经网络进行儿童语音的识别。

其中，所述提取模块包括：

划分单元，用于将所述语音数据划分为多个频带；

确定单元，用于确定带通滤波器模型，并确定所述带通滤波器模型中每个所述频带对应的参数；

第一提取单元，用于利用每个所述频带对应的带通滤波器提取每个所述频带的语音数据的特征。

其中，所述训练模块包括：

第二提取单元，用于利用每个所述带通滤波器输出的实值信号提取所述特征的幅度谱；

训练单元，用于利用大于预设值的幅度谱训练卷积神经网络，以便利用训练完成的卷积神经网络进行儿童语音的识别。

为实现上述目的，本申请提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述语音识别方法的步骤。

为实现上述目的，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述语音识别方法的步骤。

通过以上方案可知，本申请提供的一种语音识别方法，包括：确定儿童语音的频率范围，并获取所述频率范围的语音数据；将所述语音数据划分为多个频带，确定每个所述频带对应的带通滤波器，并利用每个所述频带对应的带通滤波器提取每个所述频带的语音数据的特征；提取所述特征的幅度谱，并利用大于预设值的幅度谱训练卷积神经网络，以便利用训练完成的卷积神经网络进行儿童语音的识别。

本申请提供的语音识别方法，将儿童语音的频率范围划分为多个频带，每个频带均由其对应的带通滤波器覆盖，通过对多个频带快速提取特征，由网络决定保留特征，即用于卷积神经网络训练的特征。不仅解决了儿童语音数据的缺乏，减少了儿童语音数据的需求量，提高了语音识别的准确率，而且由于去除了成年人的频率，去除了噪音的干扰，减少了训练网络的时间。本申请还公开了一种语音识别装置及一种电子设备和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为根据一示例性实施例示出的一种语音识别方法的流程图；

图2为根据一示例性实施例示出的另一种语音识别方法的流程图；

图3为根据一示例性实施例示出的一种语音识别装置的结构图；

图4为根据一示例性实施例示出的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开了一种语音识别方法，提高了儿童语音的识别准确度。

参见图1，根据一示例性实施例示出的一种语音识别方法的流程图，如图1所示，包括：

S101：确定儿童语音的频率范围，并获取所述频率范围的语音数据；

在本实施例中，首先确定儿童语音的频率范围，例如200-350赫兹，并获取该频率范围内的语音数据，用于训练卷积神经网络。

S102：将所述语音数据划分为多个频带，确定每个所述频带对应的带通滤波器，并利用每个所述频带对应的带通滤波器提取每个所述频带的语音数据的特征；

在本步骤中，使用神经网络对语音信号进行多分辨率和卷积处理，由于儿童语音数据的缺乏，将频率范围分为多个频带，即将上一步骤中获取的语音数据划分为多个频带，每个频带均由不同的带通滤波器覆盖，通过对多个频带快速提取特征，由网络决定保留特征，即用于神经网络训练的特征。不仅解决了儿童语音数据的缺乏，减少了儿童语音数据的需求量，提高了语音识别的准确率，而且由于去除了成年人的频率，去除了噪音的干扰，减少了训练网络的时间。

假设输入信号为S_t，带通滤波器的输出为：

在具体实施中，利用第二时间卷积层代替了常用的在时间-频率分解之后的最大池化层，让网络能够自动调整采样率。带通滤波器输出为下采样的，例如，t＝10，t＝10t′，且带通设滤波器组具有长度为N_TF的有限脉冲响应。h_k,τ表示该频带对应的带通滤波器的变化。随着时间的推移共享滤波器组被整合到卷积神经网络中作为卷积层，也称为时间延迟的卷积神经网络。下采样具有计算优势，可以非常有效地与带通滤波器一起应用。

S103：提取所述特征的幅度谱，并利用大于预设值的幅度谱训练卷积神经网络，以便利用训练完成的卷积神经网络进行儿童语音的识别。

在卷积神经网络训练期间，中心频率和带宽不断变化，如果带通滤波器被过采样，它们可以更容易地保留在有效的采样区域。在随后的信号处理步骤中，通过包络检测从下采样的带通滤波器输出中提取幅度谱。利用大于预设值的幅度谱训练卷积神经网络，训练完成的卷积神经网络可以进行儿童语音的识别。

本申请实施例提供的语音识别方法，将儿童语音的频率范围划分为多个频带，每个频带均由其对应的带通滤波器覆盖，通过对多个频带快速提取特征，由网络决定保留特征，即用于卷积神经网络训练的特征。不仅解决了儿童语音数据的缺乏，减少了儿童语音数据的需求量，提高了语音识别的准确率，而且由于去除了成年人的频率，去除了噪音的干扰，减少了训练网络的时间。

本申请实施例公开了一种语音识别方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

参见图2，根据一示例性实施例示出的另一种语音识别方法的流程图，如图2所示，包括：

S201：确定儿童语音的频率范围，并获取所述频率范围的语音数据；

S202：将所述语音数据划分为多个频带，确定带通滤波器模型，并确定所述带通滤波器模型中每个所述频带对应的参数；

在本实施中，不同频带的语音数据使用相同的带通滤波器模型，不同点在于带通滤波器模型中的参数，可以提高神经网络的训练效率，进而提高语音识别效率。此处的参数可以包括采样大小、采样率等，在此不进行具体限定。

S203：利用每个所述频带对应的带通滤波器提取每个所述频带的语音数据的特征；

S204：利用每个所述带通滤波器输出的实值信号提取所述特征的幅度谱；

在本步骤中，通过使用实值信号，将半波或全波整流应用于输入，即本步骤中的实值信号包括全波整流信号和半波整流信号，然后进行低通滤波来平滑最终结果：

其中，x_i,k,t为幅度谱，Δt_TF·τ为时间分解的时间，N_ENV为时间分解的样本，l_i,τ为时间分解的低通滤波器。滤波器参数在时间和过滤器之间共享，如果样本够多，最大采样窗口足够大，也能够进行多分辨率处理。

S205：利用大于预设值的幅度谱训练卷积神经网络，以便利用训练完成的卷积神经网络进行儿童语音的识别。

下面对本申请实施例提供的一种语音识别装置进行介绍，下文描述的一种语音识别装置与上文描述的一种语音识别方法可以相互参照。

参见图3，根据一示例性实施例示出的一种语音识别装置的结构图，如图3所示，包括：

获取模块301，用于确定儿童语音的频率范围，并获取所述频率范围的语音数据；

提取模块302，用于将所述语音数据划分为多个频带，确定每个所述频带对应的带通滤波器，并利用每个所述频带对应的带通滤波器提取每个所述频带的语音数据的特征；

训练模块303，用于提取所述特征的幅度谱，并利用大于预设值的幅度谱训练卷积神经网络，以便利用训练完成的卷积神经网络进行儿童语音的识别。

本申请实施例提供的语音识别装置，将儿童语音的频率范围划分为多个频带，每个频带均由其对应的带通滤波器覆盖，通过对多个频带快速提取特征，由网络决定保留特征，即用于卷积神经网络训练的特征。不仅解决了儿童语音数据的缺乏，减少了儿童语音数据的需求量，提高了语音识别的准确率，而且由于去除了成年人的频率，去除了噪音的干扰，减少了训练网络的时间。

在上述实施例的基础上，作为一种优选实施方式，所述提取模块302包括：

划分单元，用于将所述语音数据划分为多个频带；

在上述实施例的基础上，作为一种优选实施方式，所述训练模块303包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请还提供了一种电子设备，参见图4，本申请实施例提供的一种电子设备400的结构图，如图4所示，可以包括处理器11和存储器12。该电子设备400还可以包括多媒体组件13，输入/输出(I/O)接口14，以及通信组件15中的一者或多者。

其中，处理器11用于控制该电子设备400的整体操作，以完成上述的语音识别方法中的全部或部分步骤。存储器12用于存储各种类型的数据以支持在该电子设备400的操作，这些数据例如可以包括用于在该电子设备400上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件13可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器12或通过通信组件15发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口14为处理器11和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件15用于该电子设备400与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件15可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的语音识别方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述语音识别方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器12，上述程序指令可由电子设备400的处理器11执行以完成上述的语音识别方法。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于神经网络的语音识别方法，其特征在于，包括：

将所述语音数据划分为多个频带，确定每个所述频带对应的带通滤波器，并利用每个所述频带对应的带通滤波器提取每个所述频带的语音数据的特征；所述确定每个所述频带对应的带通滤波器，包括：确定带通滤波器模型，并确定所述带通滤波器模型中每个所述频带对应的参数；

提取所述特征的幅度谱，并利用大于预设值的幅度谱训练卷积神经网络，以便利用训练完成的卷积神经网络进行儿童语音的识别；

其中，所述带通滤波器的输出为：

S_t表示为输入信号，所述带通滤波器具有长度为N_TF的有限脉冲响应，h_k,τ表示为所述频带对应的带通滤波器的变化；

所述幅度谱表示为：

Δt_TF·τ表示为时间分解的时间，N_ENV表示为时间分解的样本，l_i,τ表示为时间分解的低通滤波器。

2.根据权利要求1所述语音识别方法，其特征在于，所述参数包括采样大小。

3.根据权利要求1至2中任一项所述语音识别方法，其特征在于，所述提取所述特征的幅度谱，包括：

4.根据权利要求3所述语音识别方法，其特征在于，所述实值信号包括全波整流信号和半波整流信号。

5.一种基于神经网络的语音识别装置，其特征在于，包括：

训练模块，用于提取所述特征的幅度谱，并利用大于预设值的幅度谱训练卷积神经网络，以便利用训练完成的卷积神经网络进行儿童语音的识别；

所述提取模块包括：

划分单元，用于将所述语音数据划分为多个频带；

第一提取单元，用于利用每个所述频带对应的带通滤波器提取每个所述频带的语音数据的特征；

其中，所述带通滤波器的输出为：

所述幅度谱表示为：

6.根据权利要求5所述语音识别方法，其特征在于，所述训练模块包括：

7.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述语音识别方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述语音识别方法的步骤。