CN109448707A

CN109448707A - 一种语音识别方法及装置、设备、介质

Info

Publication number: CN109448707A
Application number: CN201811550375.XA
Authority: CN
Inventors: 郭晖; 张楠赓
Original assignee: Canaan Creative Co Ltd
Current assignee: Canaan Bright Sight Co Ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2019-03-08

Abstract

本申请公开了一种语音识别方法及装置、设备、介质。该方法至少包括：对待识别音频数据进行傅里叶变换，得到语谱图；利用根据预设的语音识别字典构建并训练的卷积神经网络，对语谱图进行处理，输出相应的张量，语音识别字典中指定了字词与音素之间的映射关系；在相应的张量中进行搜索，得到相应的文本，作为语音识别结果。本申请利用卷积神经网络对待识别音频数据对应的语谱图进行识别，无需预先提取特征，能够复用图像识别算法来实现语音识别，有助于降低计算量，减少处理时间，也有助于减少信息损失，提高识别率。

Description

一种语音识别方法及装置、设备、介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音识别方法及装置、设备、介质。

背景技术

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是将人类的语音中的字词内容转换为计算机可读的输入，比如，按键、二进制编码或者字符序列。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，比如，语音到语音的翻译等。

在现有技术中，所采用的语音识别方案通常是使用梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient，MFCC)特征和动态时间规整(Dynamic Time Warping，DTW)算法进行孤立词识别。

但是，这种语音识别方案需要预先提取MFCC特征，计算量较大，增加了处理时间，也会损失信息导致识别率下降。

发明内容

本申请实施例提供一种语音识别方法及装置、设备、介质，用以解决现有技术中的如下技术问题：现有的语音识别方案通常需要预先提取MFCC特征，计算量较大，增加了处理时间，也会损失信息导致识别率下降。

本申请实施例采用下述技术方案：

一种语音识别方法，包括：

对待识别音频数据进行傅里叶变换，得到语谱图；

利用根据预设的语音识别字典构建并训练的卷积神经网络，对所述语谱图进行处理，输出相应的张量，所述语音识别字典中指定了字词与音素之间的映射关系；

在所述相应的张量中进行搜索，得到相应的文本，作为语音识别结果。

可选地，所述对待识别音频数据进行傅里叶变换，得到语谱图，包括：

对待识别音频数据进行傅里叶变换；

通过利用对数坐标系，对所述傅里叶变换的结果进行对数坐标转换，生成所述待识别音频数据对应的语谱图。

可选地，根据预设的语音识别字典构建所述卷积神经网络，包括：

确定预设的语音识别字典包含的音素数量；

根据所述音素数量，设定所述卷积神经网络中至少一层的卷积核数量，并据此构建所述卷积神经网络，所述至少一层包括最后一层。

可选地，所述在所述相应的张量中进行搜索，包括：

在所述相应的张量中进行贪心搜索和/或集束搜索。

可选地，所述对待识别音频数据进行傅里叶变换，包括：

对待识别音频数据进行快速傅里叶变换。

可选地，所述卷积神经网络为一维卷积神经网络。

一种语音识别装置，包括：

转换模块，对待识别音频数据进行傅里叶变换，得到语谱图；

卷积模块，利用根据预设的语音识别字典构建并训练的卷积神经网络，对所述语谱图进行处理，输出相应的张量，所述语音识别字典中指定了字词与音素之间的映射关系；

搜索模块，在所述相应的张量中进行搜索，得到相应的文本，作为语音识别结果。

可选地，所述转换模块对待识别音频数据进行傅里叶变换，得到语谱图，包括：

所述转换模块对待识别音频数据进行傅里叶变换；

可选地，所述装置还包括构建模块；所述构建模块根据预设的语音识别字典构建所述卷积神经网络，包括：

所述构建模块确定预设的语音识别字典包含的音素数量；

可选地，所述搜索模块在所述相应的张量中进行搜索，包括：

所述搜索模块在所述相应的张量中进行贪心搜索和/或集束搜索。

可选地，所述转换模块对待识别音频数据进行傅里叶变换，包括：

所述转换模块对待识别音频数据进行快速傅里叶变换。

可选地，所述卷积神经网络为一维卷积神经网络。

一种语音识别设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

对待识别音频数据进行傅里叶变换，得到语谱图；

一种语音识别非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

对待识别音频数据进行傅里叶变换，得到语谱图；

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：利用卷积神经网络对待识别音频数据对应的语谱图进行识别，无需预先提取特征，能够复用图像识别算法来实现语音识别，有助于降低计算量，减少处理时间，也有助于减少信息损失，提高识别率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请的一些实施例提供的一种语音识别方法的流程示意图；

图2为本申请的一些实施例提供的一种实际场景下，图1中的语音识别方法的一种具体实施流程示意图；

图3为本申请的一些实施例提供的对应于图1的一种语音识别装置的结构示意图；

图4为本申请的一些实施例提供的对应于图1的一种语音识别设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

背景技术中提到目前通常使用的一种语音识别方案存在需要预先提取MFCC特征的问题。除了这种语音识别方案以外，目前还有其他一些语音识别方案，但是也存在问题。而本申请的方案能够至少部分解决这些问题。现有的其他语音识别方案及其问题比如包括：使用MFCC特征和循环神经网络(Recurrent Neural Network，RNN)进行语音识别的方案，该方案存在RNN训练和计算速度慢的问题。

下面对本申请的方案进行详细说明。

图1为本申请的一些实施例提供的一种语音识别方法的流程示意图。在该流程中，从设备角度而言，执行主体可以是一个或者多个计算设备，比如，基于卷积神经网络的单个机器学习服务器、机器学习服务器集群等，从程序角度而言，执行主体相应地可以是搭载于这些计算设备上的程序，比如，基于卷积神经网络的神经网络建模平台、图像处理平台等，更具体地，可以是这类平台上所使用的卷积神经网络中包含的一个或者多个神经元。

图1中的流程可以包括以下步骤：

102：对待识别音频数据进行傅里叶变换，得到语谱图。

语谱图也称为语音频谱图，是针对语音数据的频谱分析视图。语谱图的横坐标可以为时间，纵坐标可以为频率，坐标点值可以为语音数据能量。由于是采用二维平面表达三维信息，所以能量值的大小可以通过颜色来表示的，比如，颜色越深，可以表示该点的语音能量越强。

在本申请的一些实施例中，待识别音频数据主要包含语音数据，也可能包含其他一些环境声音数据。待识别音频数据为时域信号，对其进行傅里叶变换，可以转换为频域信号，并直观地以语谱图表示该频域信号。该语谱图中包含的图像特征反映了待识别音频数据包含的语音特征，通过对语谱图进行图像识别，实质上即能够实现对待识别音频数据的语音识别。

在本申请的一些实施例中，待识别音频数据通常是对音源数据(比如，通过麦克风直接采集的人声数据等)进行采样、量化等处理后得到的离散数字信号，在这种情况下，可以对待识别音频数据进行离散时间傅里叶变换。为了减少计算量，提高计算效率，具体可以对待识别音频数据进行快速傅里叶变换(Fast Fourier Transformation，FFT)。

当然，待识别音频数据也可以是时域连续的信号，在这种情况下，相应地对待识别音频数据进行连续傅里叶变换。

在本申请的一些实施例中，可以将待识别音频数据的傅里叶变换视图结果直接作为语谱图；或者，为了突出特征，便于更准确地进行图像识别，也可以对该视图结果进行一些预处理后，再作为语谱图。预处理比如可以是：对视图结果进行对数坐标转换处理、对视图结果进行图像增强处理或者图像分割处理等。

104：利用根据预设的语音识别字典构建并训练的卷积神经网络，对所述语谱图进行处理，输出相应的张量，所述语音识别字典中指定了字词与音素之间的映射关系。

在本申请的一些实施例中，这里的字词可以指字和/或词。字词与音素之间的映射关系可以指：单个字词与单个音素，或者与复数个音素构成的音素序列之间的映射关系。比如，“阿”这个字可以与单个音素“\a1\”相映射，其中，“a1”表示的发音为字母元音“a”，且发音声调为第一声调；类似地，“你好”这个词可以与音素序列“\ni3\hao3\”相映射，可以看到，这个音素序列由“你好”中的各个字分别映射的音素构成。本申请对语音识别字典中的内容不做更具体的限定，可以根据具体的语音识别需求，预先根据相应的语料库进行收集整理，并且，上例对字词、音素和映射关系的表示形式也是示例性的，比如还可以用其他种类的元素进行代表或者索引等。

在本申请的一些实施例中，卷积神经网络用于对语谱图分多个区域分别进行卷积运算，以提取出语谱图中的高维特征，用以决策语谱图可能对应的音素序列或者字词序列。所构建的卷积神经网络需要利用语谱图样本及其标签进行训练，标签用于指示其对应的语谱图对应的语音识别正确结果，训练后的卷积神经网络再用于对步骤102中的语谱图进行识别。

卷积神经网络包含输入层、输出层以及多个隐层。层数量、层中的节点结构以及进行卷积运算所使用的卷积核可以是适应于语音识别字典而构建的。尤其对于输出层的节点数量和卷积核数量等参数，比如可以参考语音识别字典中包含的音素数量而设定。

在本申请的一些实施例中，输出的张量可以是矩阵，矩阵的其中一维表示时间，另一维可以表示高维特征可能对应的字词或者音素，可以直接表示或者用相应的概率表示。

106：在所述相应的张量中进行搜索，得到相应的文本，作为语音识别结果。

在本说明书实施例中，张量中可以反映字词或者音素多种可能的组合，可以利用一定的搜索策略，在这多种可能的组合中进行搜索，以选择出至少一种组合，筛选出的组合构成的文本即可以作为语音识别结果。

所采用的搜索策略比如可以是贪心搜索、集束搜索、随机搜索等。以贪心搜索为例，对于张量的时间轴上的每个时间点，分别在该时间点对应的各输出的选择最大概率的输出，所选择的输出构成连续的文本，可以作为语音识别结果。

通过图1的方法，利用卷积神经网络对待识别音频数据对应的语谱图进行识别，无需预先提取特征，能够复用图像识别算法来实现语音识别，有助于降低计算量，减少处理时间，也有助于减少信息损失，提高识别率；另外，具体可以采用一维卷积神经网络进一步地提高训练和计算速度。

基于图1的方法，本申请的一些实施例还提供了该方法的一些具体实施方案，以及扩展方案，下面进行说明。

在本申请的一些实施例中，假定待识别音频数据为按照指定二进制位数量化后的数字信号，比如，16位单声道数字音频数据等。可以用指定的滑动窗宽度、步进和窗口函数对该量化后的数字信号进行FFT，比如，用256为滑动窗宽度，128为步进，汉明窗为窗口函数对该16位单声道数字音频数据进行FFT。

在本申请的一些实施例中，前面已经提到，在对待识别音频数据进行傅里叶变换后，可以进一步地执行的其中一项预处理是对数坐标转换。其目的在于：可以缩小数据的绝对数值，方便后续计算；另外，还有助于更为精细地表现待识别音频数据中低频部分的特征，对于识别人声是比较有利的。

基于此，对于步骤102，对待识别音频数据进行傅里叶变换，得到语谱图，可以包括：对待识别音频数据进行傅里叶变换；通过利用对数坐标系，对傅里叶变换的结果进行对数坐标转换，生成所述待识别音频数据对应的语谱图。比如，可以对傅里叶变换结果中各元素分别作取2或者e为底的对数运算，得到语谱图。

在本申请的一些实施例中，比如可以按照如下方式构建卷积神经网络：确定预设的语音识别字典包含的音素数量；根据音素数量，设定卷积神经网络中至少一层的卷积核数量，并据此构建卷积神经网络，至少一层包括最后一层。一般地，可以将卷积神经网络的最后一层的节点数量对应设置为该音素数量，另外还可以加1个额外的空节点。

更直观地，本申请的一些实施例还提供了可应用于图1中语音识别方法的一种卷积神经网络的部分配置信息示例，如下表1所示。

表1

其中，表1中的第一列表示卷积神经网络的层数，共14层；第二列表示每层的类型，“Conv1d”可以表示一维卷积类型，可以看到，除了第13层以外，其他层都为Conv1d类型，该卷积神经网络相应地为一维卷积神经网络，而“Dropout”可以表示丢弃类型，在Dropout层，每次会选择该层的一部分节点使其权重暂时不工作，从而有助于降低计算量；第三列表示每层的卷积核大小，取值为1具体可以表示卷积核的大小为1×1，取值为3具体可以表示卷积核的大小为3×3；第四列表示每层的卷积核数量，其中，“a”可以表示预设的语音识别字典包含的音素数量加1。

需要说明的是，上面列举的FFT的参数、卷积神经网络的层数以及各层卷积核大小和数量等参数的取值都是示例性的，根据实际需求也可以配置为其他常数。

根据上面的说明，本申请的一些实施例还提供了一种实际场景下，图1中的语音识别方法的一种具体实施流程示意图，以帮助理解方案全貌，如图2所示。

图2中的流程可以包括以下步骤：

202：输入待识别的16位单声道音频数据，记作S；

204：以256为滑动窗宽度，128为步进，汉明窗为窗口函数对S进行FFT，得到的结果记作F；

206：对F中各元素分别作取2为底的对数运算，得到S对应的语谱图，记作H；

208：构建一个具有表1中配置的卷积神经网络并对其进行训练；其中，步骤208也可以预先执行；

210：利用该卷积神经网络对H进行处理，输出相应的张量，记作L；

212：在L中进行贪心搜索或者集束搜索，得到相应的文本，作为语音识别结果。

基于同样的思路，本申请的一些实施例还提供了上述方法对应的装置、设备和非易失性计算机存储介质。

图3为本申请的一些实施例提供的对应于图1的一种语音识别装置的结构示意图，该装置包括：

转换模块301，对待识别音频数据进行傅里叶变换，得到语谱图；

卷积模块302，利用根据预设的语音识别字典构建并训练的卷积神经网络，对所述语谱图进行处理，输出相应的张量，所述语音识别字典中指定了字词与音素之间的映射关系；

搜索模块303，在所述相应的张量中进行搜索，得到相应的文本，作为语音识别结果。

可选地，所述转换模块301对待识别音频数据进行傅里叶变换，得到语谱图，包括：

所述转换模块301对待识别音频数据进行傅里叶变换；

可选地，所述装置还包括构建模块304；所述构建模块304根据预设的语音识别字典构建所述卷积神经网络，包括：

所述构建模块304确定预设的语音识别字典包含的音素；

根据所述音素，设定所述卷积神经网络中至少一层的卷积核数量，并据此构建所述卷积神经网络，所述至少一层包括最后一层。

可选地，所述搜索模块303在所述相应的张量中进行搜索，包括：

所述搜索模块303在所述相应的张量中进行贪心搜索和/或集束搜索。

可选地，所述转换模块301对待识别音频数据进行傅里叶变换，包括：

所述转换模块301对待识别音频数据进行快速傅里叶变换。

图4为本申请的一些实施例提供的对应于图1的一种语音识别设备的结构示意图，该设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

对待识别音频数据进行傅里叶变换，得到语谱图；

本申请的一些实施例提供的对应于图1的一种语音识别非易失性计算机存储介质，存储有计算机可执行指令，该计算机可执行指令设置为：

对待识别音频数据进行傅里叶变换，得到语谱图；

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的装置、设备和介质与方法是一一对应的，因此，装置、设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述装置、设备和介质的有益技术效果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种语音识别方法，其特征在于，包括：

对待识别音频数据进行傅里叶变换，得到语谱图；

2.如权利要求1所述的方法，其特征在于，所述对待识别音频数据进行傅里叶变换，得到语谱图，包括：

对待识别音频数据进行傅里叶变换；

3.如权利要求1所述的方法，其特征在于，根据预设的语音识别字典构建所述卷积神经网络，包括：

确定预设的语音识别字典包含的音素数量；

4.如权利要求1所述的方法，其特征在于，所述在所述相应的张量中进行搜索，包括：

在所述相应的张量中进行贪心搜索和/或集束搜索。

5.如权利要求1所述的方法，其特征在于，所述对待识别音频数据进行傅里叶变换，包括：

对待识别音频数据进行快速傅里叶变换。

6.如权利要求1～5任一项所述的方法，其特征在于，所述卷积神经网络为一维卷积神经网络。

7.一种语音识别装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，所述转换模块对待识别音频数据进行傅里叶变换，得到语谱图，包括：

所述转换模块对待识别音频数据进行傅里叶变换；

9.如权利要求7所述的装置，其特征在于，所述装置还包括构建模块；所述构建模块根据预设的语音识别字典构建所述卷积神经网络，包括：

所述构建模块确定预设的语音识别字典包含的音素数量；

10.如权利要求7所述的装置，其特征在于，所述搜索模块在所述相应的张量中进行搜索，包括：

11.如权利要求7所述的装置，其特征在于，所述转换模块对待识别音频数据进行傅里叶变换，包括：

所述转换模块对待识别音频数据进行快速傅里叶变换。

12.如权利要求7～11任一项所述的装置，其特征在于，所述卷积神经网络为一维卷积神经网络。

13.一种语音识别设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

对待识别音频数据进行傅里叶变换，得到语谱图；

14.一种语音识别非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：

对待识别音频数据进行傅里叶变换，得到语谱图；